الملك الجديد لروبوتات الدردشة ظهر.. إنه ليس ChatGPT!

آخر تحديث 29 مارس 2024

3 د

تمكن Claude 3 Opus من Anthropic من تجاوز GPT-4 في تصنيف Chatbot Arena للمرة الأولى، ما أدى إلى تغييرات في قائمة المتصدرين.

يعتمد تصنيف Chatbot Arena على تقييمات المستخدمين الذين يحكمون على استجابات نموذجين مختلفين دون معرفة هويتهما، مما يسمح بتقييم موضوعي.

تشير النتائج إلى تقارب كبير في مستوى الأداء بين النماذج الرائدة في مجال الذكاء الاصطناعي التوليدي، مع تسليط الضوء على التطور السريع في هذه التكنولوجيا.

إذا استفسرنا من عامة الناس عن أبرز نموذج للذكاء الاصطناعي، ربما يذكر الكثير منهم ChatGPT. رغم تواجد العديد من الفاعلين في مجال الذكاء الاصطناعي في عام 2024، استطاعت OpenAI تحقيق إنجازات بارزة وأتاحت الذكاء الاصطناعي القوي للعموم عبر LLM. ولقد تم التصديق على نموذج اللغة الكبير الخاص بـ ChatGPT، أي GPT، بوصفه الأفضل أداءً بين نظرائه، ابتداءً من GPT-3.5، مرورًا بـ GPT-4، ووصولاً إلى GPT-4 Turbo حاليًا.

لكن يبدو أن هناك تحولاً يلوح في الأفق. هذا الأسبوع، تغلب Claude 3 Opus من Anthropic على GPT-4 في Chatbot Arena للمرة الأولى، مما جعل مطور التطبيقات Nick Dobos يعلن أن "الملك قد مات". وفقًا للوحة المتصدرين حتى لحظة كتابة هذه الكلمات، يحتفظ Claude بالصدارة على GPT: حيث يمتلك Claude 3 Opus تصنيف Arena Elo قدره 1253، بينما يمتلك GPT-4-1106-preview تصنيفاً يبلغ 1251، يليه مباشرة GPT-4-0125-معاينة بتصنيف 1248.

من الجدير بالذكر أن Chatbot Arena قد صنفت كلًا من هذه البرامج الثلاثة في المرتبة الأولى، لكن Claude 3 Opus يتفوق بفارق طفيف.

وتظهر LLMs الأخرى من Anthropic أداءً جيدًا أيضًا. يأتي Claude 3 Sonnet في المرتبة الخامسة، خلف Gemini Pro من Google مباشرة (المرتبة الرابعة)، بينما يقع Claude 3 Haiku، النموذج الأدنى من Anthropic للمعالجة الفعالة، في مرتبة أدنى بقليل من إصدار 0613 من GPT-4، لكنه يتفوق عليه.

كيف تقوم Chatbot Arena بتصنيف LLMs؟

لتقييم تنوع شهادات LLM المتاحة حاليًا، تعتمد Chatbot Arena على طريقة تتيح للمستخدمين طرح مطالبة ثم الحكم على استجابة نموذجين مختلفين دون تسمية. يُمكن للمستخدمين الاستمرار في التفاعل لتقييم الفروق بين النموذجين حتى يقرروا أيهما يتمتع بأداء أفضل. ونظرًا لأن المستخدمين لا يعلمون هوية النماذج المقارنة، كأن يُقارن Claude بـ ChatGPT أو Gemini بـ Meta's Llama، فإن ذلك يُقلل من التحيز المرتبط بالعلامة التجارية.

في هذا السياق، لا يوجد معيار محدد يُمكن للمستخدمين الاعتماد عليه لتقييم النماذج المجهولة. بدلًا من ذلك، يُقرر المستخدمون بأنفسهم أي نموذج LLM يُقدم أداءً أفضل بناءً على المعايير التي يرونها مهمة. كما ذكر الباحث في مجال الذكاء الاصطناعي سايمون ويليسون، يُعزى جزء كبير من تفوق أداء LLMs في نظر المستخدمين إلى "المشاعر" أكثر من أي شيء آخر. إن كنت تُفضل طريقة استجابة Claude على ChatGPT، فهذا يكفي في الغالب.

الأمر الأبرز هو دلالة قوة هذه البرامج التي تُعتبر شهادة على مدى تطورها. لو أُجري هذا الاختبار قبل سنوات، لربما تم البحث عن معايير أكثر تحديدًا مثل السرعة أو الدقة أو التماسك لتقييم أي LLM أقوى. الآن، أصبحت نماذج مثل Claude وChatGPT وGemini جيدة لدرجة أنها أصبحت شبه قابلة للتبادل، على الأقل بالنسبة للاستخدام العام.

ذو صلة

من الجدير بالاهتمام أن يتجاوز Claude نماذج LLM من OpenAI للمرة الأولى، لكن الأكثر إثارة هو الأداء المتميز الذي أظهره GPT-4 على مدى هذه الفترة. إذ يُقاس عمر نماذج LLM بالعام، باستثناء التحديثات التكرارية مثل GPT-4 Turbo، في حين أُطلق Claude 3 في الشهر الجاري. يصعب توقع ما ستجلبه OpenAI مع إطلاق GPT-5، الذي وصفه أحد المديرين التنفيذيين بأنه "متميز للغاية ويمثل تحسينًا جوهريًا". في الوقت الحالي، تتنافس العديد من نماذج الذكاء الاصطناعي التوليدي بكفاءة متقاربة.

تمكنت Chatbot Arena من جمع أكثر من 400000 تقييم من المستخدمين لتصنيف شهادات LLM. يُمكنك تجربة الاختبار بنفسك وإضافة رأيك إلى التصنيف العالمي.

أحلى ماعندنا ، واصل لعندك! سجل بنشرة أراجيك البريدية

بالنقر على زر “التسجيل”، فإنك توافق شروط الخدمة وسياسية الخصوصية وتلقي رسائل بريدية من أراجيك

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.

ذو صلة

الملك الجديد لروبوتات الدردشة ظهر.. إنه ليس ChatGPT!

كيف تقوم Chatbot Arena بتصنيف LLMs؟

.css-ar-1ri533b{width:1em;height:1em;display:inline-block;line-height:1em;flex-shrink:0;color:var(--arageek-colors-dark-600);margin-inline-end:var(--arageek-space-1);}عبَّر عن رأيك

عبَّر عن رأيك