تريند 🔥

🌙 رمضان 2024

العصر الجديد لصناعة الفيديوهات: نموذج”Video-LLaMA” يُمهد الطريق لتعميق فهمنا للفيديوهات

محمد نصار
محمد نصار

2 د

في عصر الصور والفيديوهات، تتقدم تكنولوجيا جديدة مبتكرة تُدعى "Video-LLaMA" لإعادة تعريف فهمنا للفيديوهات، إذ تستخدم "Video-LLaMA" (وهو اختصار لـ Video-Instruction-tuned Audio-Visual Language Model) تقنيات متطورة في معالجة اللغة لتقديم فهم مفصل لمحتوى الفيديو، ويعتمد هذا النموذج الثوري على نموذجين قويين هما BLIP-2 و MiniGPT-4.

يتألف "Video-LLaMA" من عنصرين رئيسيين: قسم الرؤية واللغة (VL) وقسم الصوت واللغة (AL)، وكلاهما يحلل بسلاسة الجوانب البصرية والصوتية في الفيديوهات.

يستخدم قسم الرؤية واللغة (VL) مشفر الرؤية ViT-G/14 بالإضافة إلى BLIP-2 Q-Former، وهو نوع متقدم من التحويلات، ويتم حساب تمثيلات الفيديو باستخدام طبقة تحويلات الفيديو ذات الطبقتين وطبقة تضمين الإطارات.

يتم تدريب قسم VL على مجموعة بيانات ويبفيد-2M لوصف النصوص للفيديوهات، بالإضافة إلى ذلك يتم تضمين أزواج الصور والنصوص من مجموعة البيانات LLaVA أثناء عملية التدريب المسبق لتعزيز فهم النموذج للمفاهيم البصرية الثابتة.

لتحسين قسم VL بشكل أكبر، يتم إجراء عملية تعديل دقيقة تسمى ضبط الدقة باستخدام بيانات ضبط التعليمات من MiniGPT-4 و LLaVA و VideoChat، ويساعد هذا الضبط الدقيق Video-LLaMA على تكييف وتخصيص قدرات فهم الفيديو استنادًا إلى التعليمات والسياقات المحددة.

أما قسم الصوت واللغة (AL)، فيستفيد من مشفر الصوت القوي المعروف بـ ImageBind-Huge، ويتضمن هذا القسم طبقة تحويلات صوتية ذات طبقتين وطبقة تضمين لقطات الصوت لحساب تمثيلات الصوت، حيث يركز قسم AL بشكل حصري على بيانات توجيه الفيديو والصور لإنشاء ربط بين ناتج ImageBind وفك تشفير اللغة.

خلال التدريب المتقاطع لـ "Video-LLaMA"، من المهم ملاحظة أنه يتم تدريب الأجزاء القابلة للتدريب فقط، وتشمل ذلك تحويلات الفيديو/الصوت، وطبقات التضمين الموضعي positional embedding layers، والطبقات الخطية linear layers. 

يضمن هذا النهج التدريبي الانتقائي أن "Video-LLaMA" يتعلم دمج المعلومات البصرية والصوتية والنصية بفعالية مع الحفاظ على التنسيق والتوازن المطلوب بين الأوضاع المختلفة.

ذو صلة

يشكل "Video-LLaMA" قفزة هامة في نماذج اللغة الصوتية المرئية، ويفتح آفاقًا واعدة لتحليل الفيديوهات بشكل دقيق وشامل، مما يتيح تطبيقات مثل وضع توصيف للفيديو، وتلخيص الفيديو، وحتى نظم الإجابة على الأسئلة المستندة إلى الفيديو.

 يتوقع أن نشهد تطورات ملحوظة في مجالات مثل توصية الفيديو، والمراقبة، ورقابة المحتوى، ويمهد "Video-LLaMA" الطريق لاحتمالات مثيرة في استغلال قوة نماذج اللغة المرئية الصوتية لفهم أكثر ذكاءً وبديهة للفيديوهات في عالمنا الرقمي.

أحلى ماعندنا ، واصل لعندك! سجل بنشرة أراجيك البريدية

بالنقر على زر “التسجيل”، فإنك توافق شروط الخدمة وسياسية الخصوصية وتلقي رسائل بريدية من أراجيك

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.

ذو صلة