قالت أستاذة علوم الكمبيوتر في جامعة ستانفورد في-في لي إن تقدم الذكاء الاصطناعي الآن محدود من قبل الأنظمة التي لا تستطيع فهم الفضاء الفيزيائي.
تم تصميم نماذج العالم لمحاكاة البيئات والتنبؤ بكيفية تغير المشاهد بمرور الوقت.
النماذج الأولية المبكرة مثل Marble تشير إلى كيف يمكن أن تعيد هذه النماذج تشكيل العمل الإبداعي والروبوتات والعلوم.
مركز فنون الموضة والترفيه لـ Decrypt.
اكتشف SCENE
لا تزال الروبوتات والذكاء الاصطناعي متعدد الوسائط غير قادرة على فهم العالم المادي، وهو قصور يقول أحد الباحثين البارزين إنه أكبر عقبة تواجه هذا المجال الآن.
قالت فاي-فاي لي، عالمة الكمبيوتر في جامعة ستانفورد والتي تعتبر رائدة في مجال رؤية الكمبيوتر الحديثة، إن الفجوة بين الذكاء الاصطناعي والواقع المادي أصبحت المشكلة الأكثر إلحاحًا في التكنولوجيا، وت argue أن سد هذه الفجوة سيتطلب أنظمة مبنية حول التفكير المكاني بدلاً من اللغة وحدها.
تقترب الذكاء الاصطناعي بسرعة من حدود التعلم القائم على النصوص، وسيعتمد التقدم في نهاية المطاف على “نماذج العالم”، كما قال لي في تقرير نُشر يوم الإثنين.
“في جوهر فتح الذكاء المكاني هو تطوير نماذج العالم—نوع جديد من الذكاء الاصطناعي التوليدي الذي يجب أن يواجه مجموعة مختلفة تمامًا من التحديات مقارنة بـ LLMs”، كتب لي على X. “يجب أن تولد هذه النماذج عوالم متسقة مكانيًا تتبع القوانين الفيزيائية، وتعالج المدخلات متعددة الوسائط من الصور إلى الأفعال، وتتنبأ كيف تتطور تلك العوالم أو يتم التفاعل معها مع مرور الوقت.”
ما هذه النماذج في العالم؟
تعود فكرة “نماذج العالم” إلى أوائل الأربعينيات من القرن الماضي، عندما قام الفيلسوف وعالم النفس الاسكتلندي كينيث كرايك بإجراء أبحاث في علم الإدراك.
ظهرت الفكرة مرة أخرى في الذكاء الاصطناعي الحديث بعد أن أظهر ورقة ديفيد ها ويورغن شميتهوبر لعام 2018 أن الشبكة العصبية يمكن أن تتعلم نموذجًا داخليًا مضغوطًا لبيئة معينة وتستخدمه كمحاكي للتخطيط والتحكم.
جادل لي بأن نماذج العالم مهمة لأن الروبوتات والأنظمة متعددة الوسائط لا تزال تكافح مع التفكير المكاني المرتبط بالواقع، مما يجعلها غير قادرة على تقدير المسافات وتغيرات المشهد، أو التنبؤ بالنتائج الفيزيائية الأساسية.
“الروبوتات كمتعاونين بشريين، سواء كانت تساعد العلماء في المختبر أو تساعد كبار السن الذين يعيشون بمفردهم، يمكن أن توسع جزءًا من القوى العاملة التي تحتاج بشدة إلى مزيد من العمالة والإنتاجية”، كتب لي. وتقول لي إن البيئات الحقيقية تتبع قواعد لا تستطيع الآلات الحالية التقاطها.
من تشكيل الجاذبية للحركة إلى المواد التي تؤثر على الضوء، يتطلب حل هذا أنظمة قادرة على تخزين الذاكرة المكانية ونمذجة المشاهد في أكثر من بعدين.
في سبتمبر، أصدرت شركة لي، وورلد لابز، الإصدار التجريبي لماربل، وهو نموذج عالمي مبكر ينتج بيئات ثلاثية الأبعاد قابلة للاستكشاف من نصوص أو صور.
تدعي الشركة أن المستخدمين يمكنهم التجول في هذه العوالم دون حدود زمنية أو انحراف في المشهد، وأن البيئات ظلت متسقة بدلاً من أن تتغير أو تتفكك.
“الرخام هو فقط خطوتنا الأولى في إنشاء نموذج عالمي ذكي مكانيًا حقًا,” كتب لي. “مع تسارع التقدم، بدأ الباحثون والمهندسون والمستخدمون وقادة الأعمال على حد سواء في التعرف على إمكانياته الاستثنائية. سيمكن الجيل القادم من نماذج العالم الآلات من تحقيق الذكاء المكاني على مستوى جديد تمامًا - وهو إنجاز سيفتح قدرات أساسية لا تزال غائبة إلى حد كبير عن أنظمة الذكاء الاصطناعي اليوم.”
قال لي إن حالات استخدام نماذج العالم تشمل دعم مجموعة من التطبيقات لأنها تعطي الذكاء الاصطناعي فهمًا داخليًا لكيفية تصرف البيئات.
يمكن للمبدعين استخدامها لاستكشاف المشاهد في الوقت الحقيقي، ويمكن أن تعتمد الروبوتات عليها للتنقل والتعامل مع الأشياء بشكل أكثر أمانًا، ويمكن للباحثين في العلوم والرعاية الصحية إجراء محاكاة مكانية أو تحسين التصوير وأتمتة المختبر.
ربط لي أبحاث الذكاء المكاني بالدراسات البيولوجية المبكرة، مشيرًا إلى أن البشر تعلموا الإدراك والتصرف قبل وقت طويل من تطويرهم للغة.
“قبل فترة طويلة من ظهور اللغة المكتوبة، كان البشر يروون القصص—يصورونها على جدران الكهوف، وينقلونها عبر الأجيال، ويبنون ثقافات كاملة على السرد المشترك،” كتبت. “القصص هي الطريقة التي نفهم بها العالم، ونتواصل عبر المسافات والأزمان، ونستكشف ما يعنيه أن نكون بشراً، والأهم من ذلك، نجد معنى في الحياة والحب داخل أنفسنا.”
قال لي إن الذكاء الاصطناعي يحتاج إلى نفس الأسس للعمل في العالم المادي وجادل بأن دوره يجب أن يكون دعم الناس، وليس استبدالهم. ومع ذلك، فإن التقدم سيعتمد على نماذج تفهم كيفية عمل العالم بدلاً من مجرد وصفه.
“الحدود التالية للذكاء الاصطناعي هي الذكاء المكاني، وهي تقنية ستحول الرؤية إلى تفكير، والإدراك إلى عمل، والخيال إلى إبداع،” قال لي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقدم الذكاء الاصطناعي يعتمد الآن على "نماذج العالم" التي تفهم الواقع الفيزيائي
باختصار
مركز فنون الموضة والترفيه لـ Decrypt.
اكتشف SCENE
لا تزال الروبوتات والذكاء الاصطناعي متعدد الوسائط غير قادرة على فهم العالم المادي، وهو قصور يقول أحد الباحثين البارزين إنه أكبر عقبة تواجه هذا المجال الآن.
قالت فاي-فاي لي، عالمة الكمبيوتر في جامعة ستانفورد والتي تعتبر رائدة في مجال رؤية الكمبيوتر الحديثة، إن الفجوة بين الذكاء الاصطناعي والواقع المادي أصبحت المشكلة الأكثر إلحاحًا في التكنولوجيا، وت argue أن سد هذه الفجوة سيتطلب أنظمة مبنية حول التفكير المكاني بدلاً من اللغة وحدها.
تقترب الذكاء الاصطناعي بسرعة من حدود التعلم القائم على النصوص، وسيعتمد التقدم في نهاية المطاف على “نماذج العالم”، كما قال لي في تقرير نُشر يوم الإثنين.
“في جوهر فتح الذكاء المكاني هو تطوير نماذج العالم—نوع جديد من الذكاء الاصطناعي التوليدي الذي يجب أن يواجه مجموعة مختلفة تمامًا من التحديات مقارنة بـ LLMs”، كتب لي على X. “يجب أن تولد هذه النماذج عوالم متسقة مكانيًا تتبع القوانين الفيزيائية، وتعالج المدخلات متعددة الوسائط من الصور إلى الأفعال، وتتنبأ كيف تتطور تلك العوالم أو يتم التفاعل معها مع مرور الوقت.”
ما هذه النماذج في العالم؟
تعود فكرة “نماذج العالم” إلى أوائل الأربعينيات من القرن الماضي، عندما قام الفيلسوف وعالم النفس الاسكتلندي كينيث كرايك بإجراء أبحاث في علم الإدراك.
ظهرت الفكرة مرة أخرى في الذكاء الاصطناعي الحديث بعد أن أظهر ورقة ديفيد ها ويورغن شميتهوبر لعام 2018 أن الشبكة العصبية يمكن أن تتعلم نموذجًا داخليًا مضغوطًا لبيئة معينة وتستخدمه كمحاكي للتخطيط والتحكم.
جادل لي بأن نماذج العالم مهمة لأن الروبوتات والأنظمة متعددة الوسائط لا تزال تكافح مع التفكير المكاني المرتبط بالواقع، مما يجعلها غير قادرة على تقدير المسافات وتغيرات المشهد، أو التنبؤ بالنتائج الفيزيائية الأساسية.
“الروبوتات كمتعاونين بشريين، سواء كانت تساعد العلماء في المختبر أو تساعد كبار السن الذين يعيشون بمفردهم، يمكن أن توسع جزءًا من القوى العاملة التي تحتاج بشدة إلى مزيد من العمالة والإنتاجية”، كتب لي. وتقول لي إن البيئات الحقيقية تتبع قواعد لا تستطيع الآلات الحالية التقاطها.
من تشكيل الجاذبية للحركة إلى المواد التي تؤثر على الضوء، يتطلب حل هذا أنظمة قادرة على تخزين الذاكرة المكانية ونمذجة المشاهد في أكثر من بعدين.
في سبتمبر، أصدرت شركة لي، وورلد لابز، الإصدار التجريبي لماربل، وهو نموذج عالمي مبكر ينتج بيئات ثلاثية الأبعاد قابلة للاستكشاف من نصوص أو صور.
تدعي الشركة أن المستخدمين يمكنهم التجول في هذه العوالم دون حدود زمنية أو انحراف في المشهد، وأن البيئات ظلت متسقة بدلاً من أن تتغير أو تتفكك.
“الرخام هو فقط خطوتنا الأولى في إنشاء نموذج عالمي ذكي مكانيًا حقًا,” كتب لي. “مع تسارع التقدم، بدأ الباحثون والمهندسون والمستخدمون وقادة الأعمال على حد سواء في التعرف على إمكانياته الاستثنائية. سيمكن الجيل القادم من نماذج العالم الآلات من تحقيق الذكاء المكاني على مستوى جديد تمامًا - وهو إنجاز سيفتح قدرات أساسية لا تزال غائبة إلى حد كبير عن أنظمة الذكاء الاصطناعي اليوم.”
قال لي إن حالات استخدام نماذج العالم تشمل دعم مجموعة من التطبيقات لأنها تعطي الذكاء الاصطناعي فهمًا داخليًا لكيفية تصرف البيئات.
يمكن للمبدعين استخدامها لاستكشاف المشاهد في الوقت الحقيقي، ويمكن أن تعتمد الروبوتات عليها للتنقل والتعامل مع الأشياء بشكل أكثر أمانًا، ويمكن للباحثين في العلوم والرعاية الصحية إجراء محاكاة مكانية أو تحسين التصوير وأتمتة المختبر.
ربط لي أبحاث الذكاء المكاني بالدراسات البيولوجية المبكرة، مشيرًا إلى أن البشر تعلموا الإدراك والتصرف قبل وقت طويل من تطويرهم للغة.
“قبل فترة طويلة من ظهور اللغة المكتوبة، كان البشر يروون القصص—يصورونها على جدران الكهوف، وينقلونها عبر الأجيال، ويبنون ثقافات كاملة على السرد المشترك،” كتبت. “القصص هي الطريقة التي نفهم بها العالم، ونتواصل عبر المسافات والأزمان، ونستكشف ما يعنيه أن نكون بشراً، والأهم من ذلك، نجد معنى في الحياة والحب داخل أنفسنا.”
قال لي إن الذكاء الاصطناعي يحتاج إلى نفس الأسس للعمل في العالم المادي وجادل بأن دوره يجب أن يكون دعم الناس، وليس استبدالهم. ومع ذلك، فإن التقدم سيعتمد على نماذج تفهم كيفية عمل العالم بدلاً من مجرد وصفه.
“الحدود التالية للذكاء الاصطناعي هي الذكاء المكاني، وهي تقنية ستحول الرؤية إلى تفكير، والإدراك إلى عمل، والخيال إلى إبداع،” قال لي.