LEAP26

Google TurboQuant تقلب الموازين وداعًا لوحدات معالجة الرسومات في الذكاء الاصطناعي

عبد الرحمن عمرو
عبد الرحمن عمرو

3 د

تعتمد النماذج اللغوية الكبيرة على متجهات رقمية عالية الأبعاد لتمثيل البيانات.

تستهلك هذه المتجهات كثيراً من الذاكرة، مما يبطئ الأداء ويزيد التكلفة التشغيلية.

قدمت Google تقنية TurboQuant لتقليص حجم المتجهات دون فقدان الدقة.

تخفض TurboQuant استهلاك الذاكرة بشكل كبير، مما يزيد من سرعة المعالجة.

يساعد تحسين كفاءة النماذج في تشغيلها على أجهزة بموارد محدودة وكلفة منخفضة.

حين نفتح تطبيق دردشة ذكي أو نطلب توصية سريعة من متجر إلكتروني، نادراً ما نفكر في الكمية الهائلة من العمليات الحسابية التي تجري خلف الستار. كل رسالة نكتبها تعني ذاكرة تُخزَّن وحسابات تُعاد، وموارد حوسبية تُستهلك. ومع تضخم نماذج الذكاء الاصطناعي، بدأت كلفة الذاكرة لا تقل أهمية عن كلفة المعالجة نفسها.


لماذا أصبحت الذاكرة عنق الزجاجة؟

تعتمد النماذج اللغوية الكبيرة وأنظمة التوصية ومحركات البحث الحديثة على متجهات رقمية عالية الأبعاد لتمثيل الكلمات والصور والسياقات. هذه المتجهات تمنح الآلة قدرة على التقاط المعنى والعلاقات الدقيقة، لكنها في المقابل تستهلك قدراً هائلاً من الذاكرة، خصوصاً في ما يُعرف بذاكرة المفاتيح والقيم أو ما يُسمى KV Cache.

هذه الذاكرة المؤقتة تحتفظ بنتائج وسيطة حتى لا يعيد النموذج الحسابات من الصفر في كل مرة، لكنها تتضخم بسرعة مع طول المحادثة أو حجم البيانات. النتيجة واضحة: استهلاك أعلى للذاكرة، تباطؤ نسبي، وتكلفة تشغيلية متزايدة.


TurboQuant: ضغط ذكي بلا خسارة تُذكر

قدمت Google Research تقنية تحمل اسم TurboQuant، هدفها الأساسي تقليص حجم هذه المتجهات من دون الإضرار بدقتها. الفكرة ليست مجرد تقليل عدد البتات، بل إعادة تمثيل البيانات بطريقة أكثر كفاءة رياضياً.

التقنية تمزج بين أسلوبين: تحويل المتجهات إلى إحداثيات قطبية عبر ما يسمى PolarQuant، ثم معالجة الفروقات المتبقية باستخدام آلية QJL التي تختزل القيم إلى تمثيل ثنائي شديد الصغر مع الحفاظ على العلاقات النسبية بين المتجهات.

  • التحويل إلى صيغة قطبية يركّز على مقدار المتجه واتجاهه بدلاً من تخزين كل مكوّن بشكل تقليدي.
  • آلية QJL تقلص القيم المتبقية إلى تمثيل من بت واحد مع صون البنية الرياضية العامة.

من 32 بت إلى 3 بتات

في النماذج التقليدية، يُمثَّل كل رقم داخل المتجه عادة بـ 32 بت. TurboQuant يخفض هذا الرقم إلى نحو 3 أو 4 بتات فقط لكل قيمة، أي تقليص يقارب ستة أضعاف في استهلاك الذاكرة. الأهم أن عمليات الانتباه الحسابية يمكن أن تصبح أسرع بمرات ملحوظة، بفضل خفة البيانات المتداولة داخل المعالج.

بالنسبة لمطوّري الأنظمة، هذا يعني قدرة أكبر على تشغيل نماذج أوسع أو محادثات أطول على العتاد نفسه. وبالنسبة للشركات، يعني ذلك تقليل الاعتماد على وحدات معالجة رسومية باهظة الثمن في بعض السيناريوهات، أو على الأقل تحسين الاستفادة منها.


هل يعني ذلك نهاية عصر GPUs؟

العنوان الجذاب قد يوحي بأن وحدات المعالجة الرسومية أصبحت بلا جدوى، لكن الواقع أكثر توازناً. تقنيات الضغط لا تلغي الحاجة إلى عتاد قوي، بل تعيد توزيع العبء الحسابي وتخفف الضغط عن الذاكرة والنطاق الترددي.

ما تفعله TurboQuant هو تحسين الكفاءة الداخلية للنماذج، بحيث تصبح أكثر رشاقة وقابلية للتوسع. في بيئات الإنتاج الضخمة ومراكز البيانات، يمكن لهذا النوع من التحسين أن يُحدث فرقاً كبيراً في استهلاك الطاقة وكلفة التشغيل، لكنه يعمل جنباً إلى جنب مع العتاد المتقدم لا بديلاً مطلقاً عنه.


ذكاء اصطناعي أخف وأكثر قابلية للانتشار

الأثر الأوسع لهذه الخطوة يكمن في إمكانية تشغيل نماذج قوية على أجهزة بموارد محدودة نسبياً، سواء في خوادم أقل كلفة أو حتى في بيئات حوسبة طرفية. تقنيات الكمّ والنمذجة الكمية والضغط الذكي أصبحت جزءاً من سباق تحسين كفاءة الذكاء الاصطناعي، لا مجرد سباق أحجام.

ذو صلة

حين تصبح الذاكرة أقل عبئاً، يمكن للأنظمة أن تحتفظ بسياق أطول، وتقدم استجابات أسرع، وتخدم عدداً أكبر من المستخدمين في الوقت ذاته. التقدم هنا لا يأتي من زيادة عدد المعاملات فحسب، بل من إدارة أدق لكل بت داخل النموذج.

في النهاية، يبدو أن المرحلة المقبلة من تطور الذكاء الاصطناعي لن تُقاس فقط بضخامة النماذج، بل بمدى ذكاء الطرق التي نضغط بها بياناتها ونحسن تدفقها. الكفاءة لم تعد تفصيلاً هندسياً صغيراً، بل أصبحت ميدان التنافس الحقيقي.

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.

ذو صلة