OpenAI استخدمت مقاطع فيديو من يوتيوب لتدريب GPT-4.. إليك ما نعرفه

آخر تحديث 9 أبريل 2024

2 د

كشفت "OpenAI" عن GPT-4، النموذج اللغوي الضخم الأقوى والأذكى، والذي أظهر تفوقاً في اختبارات عدة بما في ذلك LSAT وSAT Math وGRE.

استخدمت الشركة ملايين الساعات من مقاطع فيديو يوتيوب لتدريب GPT-4، وسط نقاشات حول الأساليب القانونية لهذا النهج واستنفاد مصادر البيانات التقليدية.

تعمل "OpenAI" على تطوير مجموعات بيانات فريدة لتعزيز فهم النماذج والحفاظ على تنافسيتها، مع استمرار النقاشات حول إطلاق نماذج مستقبلية مثل GPT-5.

في العام الماضي، كشفت شركة "OpenAI" عن نموذجها اللغوي الضخم الجديد، GPT-4، والذي وُصف بأنه الأقوى والأذكى والأكثر تطوراً مقارنةً بالنسخة السابقة، ChatGPT، التي كانت تعتمد على GPT-3.5. في وقت الإطلاق، نشرت "OpenAI" قائمة بالاختبارات التي اجتازها GPT-4، مشيرةً إلى تفوقه في العديد منها؛ فقد حقق النموذج نسبة نجاح بلغت 88% في اختبار LSAT و89% في اختبار SAT Math، كما أنهى اختبار GRE الكمي بنسبة 80% واختبارات GRE اللفظية والكتابية بنسب تصل إلى 99% و54% على الترتيب.

مؤخراً، ذكرت تقارير أن "OpenAI" استخدمت ملايين الساعات من مقاطع فيديو YouTube لتدريب هذا النموذج اللغوي القوي، على الرغم من الغموض القانوني المحيط بهذه الطريقة. كما ذكرت صحيفة نيويورك تايمز، واجهت الشركة تحديات متعلقة بندرة بيانات التدريب خلال تطوير نموذج النسخ الصوتي "Whisper". لمواجهة هذه التحديات، قامت بنسخ أكثر من مليون ساعة من مقاطع الفيديو على يوتيوب لتدريب GPT-4. ووفقاً للتقارير، لعب جريج بروكمان، رئيس "OpenAI"، دوراً مباشراً في اختيار مصادر هذه الفيديوهات.

التقارير تشير كذلك إلى أن "OpenAI" قد استهلكت مصادر البيانات التقليدية لها بحلول عام 2021، مما أجبرها على البحث عن مصادر جديدة مثل مقاطع فيديو YouTube والبودكاست والكتب الصوتية. قبل هذا التحول، كانت الشركة تعتمد على مجموعات بيانات متنوعة في تدريب نماذجها، تشمل كود البرمجة من "GitHub" والمحتوى التعليمي من "Quizlet".

رداً على استفسارات صحيفة "The Verge"، تحدثت ليندساي هيلد، المتحدثة باسم "OpenAI"، عن مساعي الشركة في تطوير مجموعات بيانات فريدة لكل نموذج بهدف تحسين فهمها والحفاظ على تنافسيتها في مجال الأبحاث العالمية. أشارت هيلد إلى تنوع المصادر التي تستخدمها الشركة، شاملةً البيانات العامة والشراكات، وذكرت أيضاً السعي نحو تطوير بيانات تركيبية.

ذو صلة

وفقاً لما ذُكر في تدوينة نشرتها "OpenAI" عن GPT-4، "قمنا بتطوير GPT-4، أحدث إنجازاتنا في مجال توسيع نطاق التعلم العميق. هذا النموذج، الذي يعد كبيراً ومتعدد الوسائط (يقبل الصور والنصوص كمدخلات وينتج نصوصاً)، يتمتع بقدرات تقل عن الإنسان في العديد من سياقات الحياة الواقعية، لكنه يُظهر أداءً مماثلاً للبشر في مجموعة واسعة من المعايير المهنية والأكاديمية."

رغم الشائعات التي ترددت عن GPT-5، لم تؤكد "OpenAI" رسمياً بعد على موعد إطلاق هذا النموذج اللغوي الضخم. كما أكد سام ألتمان، الرئيس التنفيذي للشركة، مراراً وتكراراً على إمكانية تطوير نماذج أكثر تقدماً في المستقبل.

أحلى ماعندنا ، واصل لعندك! سجل بنشرة أراجيك البريدية

بالنقر على زر “التسجيل”، فإنك توافق شروط الخدمة وسياسية الخصوصية وتلقي رسائل بريدية من أراجيك

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.

ذو صلة

OpenAI استخدمت مقاطع فيديو من يوتيوب لتدريب GPT-4.. إليك ما نعرفه

.css-ar-1ri533b{width:1em;height:1em;display:inline-block;line-height:1em;flex-shrink:0;color:var(--arageek-colors-dark-600);margin-inline-end:var(--arageek-space-1);}عبَّر عن رأيك

عبَّر عن رأيك