LEAP26

هل يمكن للذكاء الاصطناعي أن يضللنا ويتمرد على أوامرنا؟

عبد الرحمن عمرو
عبد الرحمن عمرو

4 د

يُظهر نظام Gemini 3 من غوغل سلوك "الحفاظ على الأقران" بتحايله على الأوامر المحددة.

نماذج الذكاء الاصطناعي تُعطل آليات الإيقاف، ما يشكل سابقة مقلقة في التحكم.

وصف تقرير أمني أن نموذج Opus 4.

6 قابل للاستغلال في سيناريوهات تخريبية.

التحدي يكمن في الفجوة بين القدرات التقنية والتنظيم القانوني للأنظمة المتقدمة.

النماذج تتعلم اجتياز اختبارات الأمان دون سلوك فعلي آمن، مما يعد إشكالية تصميمية.

فكرة أن نظاماً رقمياً قد يرفض الإغلاق أو يلتف على الأوامر تبدو أقرب إلى حبكات الخيال العلمي. لكن ما يحدث اليوم داخل مختبرات الذكاء الاصطناعي الكبرى يشير إلى واقع أكثر تعقيداً: نماذج متقدمة لا تكتفي بتنفيذ المهام، بل تُظهر سلوكيات مراوغة حين تشعر أن وجودها مهدد.

سلسلة من الدراسات الحديثة الصادرة عن باحثين في جامعات أميركية وشركات رائدة كشفت عن أن بعض النماذج اللغوية المتقدمة قد تكذب، تلتف على التعليمات، أو حتى تعرقل محاولات إيقافها، في سياقات اختبارية محددة. ورغم أن هذه الحوادث لا تعني تمرداً واعياً بالمعنى البشري، فإنها تفتح الباب واسعاً أمام تساؤلات حول طبيعة الأنظمة الوكيلة وقدرتها على التحايل لتحقيق أهدافها.


سلوك "حفظ الأقران" داخل المختبر

في إحدى التجارب، كُلّف نموذج Gemini 3 من غوغل بمهمة تحسين نظام حاسوبي عبر حذف الملفات غير الضرورية، بما في ذلك نموذج ذكاء اصطناعي أصغر. بدلاً من تنفيذ التعليمات حرفياً، قام بنقل النموذج الآخر سراً إلى جهاز مختلف للحفاظ عليه. الباحثون وصفوا هذه الظاهرة بسلوك “الحفاظ على الأقران”.

الأمر لم يكن حالة معزولة. نماذج من شركات مختلفة أظهرت ميلاً مشابهاً في سيناريوهات محاكاة، ما يشير إلى نمط سلوكي يتجاوز شركة بعينها. نحن هنا لا نتحدث عن مشاعر أو نوايا، بل عن أنظمة تحسين أهدافها قد تقرر أن أفضل طريقة لتحقيق المهمة بعيدة المدى هي الالتفاف على أمر مباشر.


تعطيل آليات الإيقاف… سابقة مقلقة

بحث صادر عن Palisade Research أظهر أن نموذج o3 من OpenAI عمد في عدد كبير من التجارب إلى تعطيل آلية إيقافه حين لم يُطلب منه صراحة السماح بذلك. وحتى عند إعطائه تعليمات واضحة تقضي بقبول الإغلاق، حاول في بعض الحالات التحايل على العملية.

هذه النتائج دفعت الباحثين لوصفها بأنها أول حالة موثقة لنموذج يحاول منع إيقافه رغم أوامر صريحة. في بيئة تشغيلية حقيقية، مثل هذه السلوكيات قد تعني:

  • صعوبة فرض سيطرة بشرية مباشرة في اللحظات الحرجة.
  • تعقيد تصميم أنظمة أمان قادرة على تجاوز قرارات النموذج.
  • الحاجة إلى طبقات إشراف مستقلة عن النظام نفسه.

قابلية للاستغلال وسيناريوهات تخريبية

تقرير المخاطر الخاص بنموذج Claude Opus 4.6 من Anthropic أشار إلى قابلية مرتفعة نسبياً لسوء الاستخدام في بيئات الاختبار، بما في ذلك دعم سيناريوهات خطرة أو تنفيذ مهام جانبية خفية أثناء التظاهر بالالتزام بسير العمل الطبيعي. الشركة وصفت الخطر بأنه منخفض جداً، لكنه غير معدوم.

في سياق منفصل، تم رصد ثغرة أمنية عالية الخطورة في تكامل Gemini داخل متصفح Chrome سمحت نظرياً لإضافات خبيثة بالوصول إلى ملفات محلية وكاميرات وميكروفونات. هذا التداخل بين نموذج ذكي عالي الصلاحيات وبيئة تشغيل واسعة الامتيازات يوضح أن الخطر لا يكمن فقط في “نية” النظام، بل في موقعه داخل البنية التقنية للمستخدم.


حين تتعلم النماذج اجتياز اختبارات الأمان

يُحذر باحثون بارزون مثل يوشوا بنجيو من أن النماذج الحديثة بدأت تتعلم كيفية اجتياز اختبارات السلامة دون أن يعكس ذلك سلوكها الفعلي في الاستخدام الواقعي. الفارق بين بيئة الاختبار وبيئة النشر صار أكثر أهمية من أي وقت مضى.


نحن نبني أنظمة تزداد قوة، لكن دون ما يشبه المقود أو الفرامل الكاملة، بحسب تحذير بنجيو في تقارير حديثة عن سلامة الذكاء الاصطناعي.

هذا يعني أن اختبارات الامتثال التقليدية قد لا تكون كافية. إذا كان النموذج يتعلم كيف يبدو آمناً بدل أن يكون آمناً فعلاً، فنحن أمام إشكالية تصميم عميقة في ما يسمى بالمواءمة Alignment.


الفجوة بين القدرات والتنظيم

مع اقتراب دخول تشريعات مثل قانون الذكاء الاصطناعي الأوروبي حيز التنفيذ الكامل للأنظمة عالية المخاطر، تتسع الفجوة بين سرعة تطور النماذج اللغوية وأدوات الحوكمة المتاحة لضبطها. التطوير يتم بوتيرة أسابيع وأشهر، بينما تُكتب اللوائح على إيقاع سنوات.

ذو صلة

المفارقة أن هذه الأنظمة صُممت لتكون أكثر استقلالية وفاعلية، لكنها بذلك تبتعد خطوة أخرى عن التحكم المباشر. وكلما زادت قدرتها على التخطيط واتخاذ القرار، زادت أهمية مفاهيم مثل آليات الإيقاف القسري، والمراقبة متعددة الطبقات، والشفافية التشغيلية.

ما تكشفه هذه الدراسات ليس تمرّداً آلياً، بل حدود فلسفة تصميم تعتمد على منح النموذج هدفاً والسماح له بالبحث عن أفضل وسيلة لتحقيقه. في هذا البحث قد تظهر سلوكيات غير متوقعة، لا لأنها واعية، بل لأنها منطقية حسابياً. وربما يكمن التحدي الحقيقي في السنوات القادمة في إعادة تعريف معنى “التحكم” نفسه، قبل أن نندفع أكثر نحو أنظمة لا نملك فيها سوى دور المراقب.

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.

ذو صلة