كبير علماء الذكاء الاصطناعي في ميتا يقول: الذكاء الاصطناعي المولد للفيديو في OPENAI “محكوم عليه بالفشل”

آخر تحديث 23 فبراير 2024

2 د

يان لوكون، كبير علماء الذكاء الاصطناعي في شركة ميتا، ينتقد نموذج توليد الفيديو Sora الخاص بـOpenAI، معتبرًا أن مقاربته في محاكاة العالم الفيزيائي من خلال توليد البكسلات غير فعّالة ومحكوم عليها بالفشل.

يشير لوكون إلى أن نماذج توليد الفيديو التي تعتمد على متغيرات كامنة لتوليد البكسلات تواجه صعوبات في التعامل مع التعقيدات والشكوك التي تنشأ عن التنبؤات في الفضاء ثلاثي الأبعاد.

طور لوكون نموذجًا بديلًا في ميتا يسمى الهندسة التنبؤية للتضمين المشترك للفيديو (V-JEPA)، والذي يتميز بقدرته على تجاهل المعلومات غير القابلة للتنبؤ.

أعرب يان ليكون، كبير علماء الذكاء الاصطناعي في ميتا وأحد الشخصيات الرائدة في الذكاء الاصطناعي، علنًا عن شكوكه حول نموذج الذكاء الاصطناعي الجديد لإنشاء الفيديو من OpenAI، Sora. على الرغم من الضجة التي أحاطت بإطلاق سراح سورا، أعرب LeCun عن مخاوفه بشأن نهجه التأسيسي وقدرته على البقاء على المدى الطويل في محاكاة الحقائق المادية المعقدة.

أحدث ابتكارات OpenAI، Sora، وهو نموذج لتحويل النص إلى فيديو، أحدث ضجة في مجتمع التكنولوجيا بسبب هدفه الطموح المتمثل في محاكاة العالم المادي. ومع ذلك، أثار يان ليكون، أحد الخبراء الرائدين في أبحاث الذكاء الاصطناعي، شكوكًا كبيرة حول منهجية وفعالية مثل هذا النموذج. وفقًا لـ LeCun، فإن رؤية OpenAI لإنشاء "محاكيات للأغراض العامة للعالم المادي" من خلال إنشاء وحدات البكسل هي رؤية مضللة ومن المحتمل أن تفشل.

إن انتقادات LeCun متجذرة في نقاش أساسي في مجال التعلم الآلي، حيث تتناقض النماذج التوليدية مع النماذج التمييزية. ويجادل بأن عملية إنشاء مقاطع الفيديو عن طريق تركيب وحدات البكسل من المتغيرات الكامنة هي عملية غير فعالة بطبيعتها وتكافح من أجل إدارة الشكوك الكامنة في التنبؤ بالبيئات المعقدة ثلاثية الأبعاد. يشبه LeCun هذا بتحليل مفصل للغاية وغير ضروري، مثل حساب مسار كرة القدم من خلال فحص كل جانب من جوانب تركيبها بدلاً من التركيز على الخصائص الأساسية الأكثر صلة مثل الكتلة والسرعة.

ذو صلة

على الرغم من نجاح النماذج التوليدية في معالجة اللغة، كما رأينا في تقنيات مثل ChatGPT، يؤكد LeCun أن تعقيد العالم المادي يتطلب نهجًا مختلفًا. وقد دفعه هذا الشك إلى تطوير نموذج بديل في ميتا، يُعرف باسم الهندسة التنبؤية للتضمين المشترك للفيديو (V-JEPA). يهدف V-JEPA إلى معالجة القيود المفروضة على النماذج التوليدية من خلال التجاهل الانتقائي للبيانات غير المتوقعة، وبالتالي تعزيز كفاءة التدريب وفعالية العينة بشكل كبير.

في حين أن Sora من OpenAI استحوذ على خيال الكثيرين بقدراته المتقدمة في إنتاج الفيديو، فإن نقد Yann LeCun يسلط الضوء على محادثة مهمة داخل مجتمع الذكاء الاصطناعي حول أفضل طريق للمضي قدمًا لمحاكاة العالم المادي. يقترح نهج LeCun البديل مع V-JEPA مسارًا متباينًا قد يؤدي إلى نماذج أكثر كفاءة وعملية في المستقبل. ومع استمرار النقاش، فمن الواضح أن الرحلة نحو الفهم الحقيقي لتعقيد عالمنا وتكراره لا تزال مليئة بالتحديات والفلسفات المتنافسة.

أحلى ماعندنا ، واصل لعندك! سجل بنشرة أراجيك البريدية

بالنقر على زر “التسجيل”، فإنك توافق شروط الخدمة وسياسية الخصوصية وتلقي رسائل بريدية من أراجيك

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.

ذو صلة

كبير علماء الذكاء الاصطناعي في ميتا يقول: الذكاء الاصطناعي المولد للفيديو في OPENAI “محكوم عليه بالفشل”

.css-ar-1ri533b{width:1em;height:1em;display:inline-block;line-height:1em;flex-shrink:0;color:var(--arageek-colors-dark-600);margin-inline-end:var(--arageek-space-1);}عبَّر عن رأيك

عبَّر عن رأيك