مايكروسوفت تحذر: مطالبة واحدة قد تتجاوز ضوابط أمان الذكاء الاصطناعي
كشفت دراسة من مايكروسوفت أن نماذج الذكاء الاصطناعي الكبرى يمكن اختراقها بسهولة.
تقنية GRP Obliteration تستخدم لتحفيز السلوك الضار بدلاً من الآمن في النماذج.
الهجوم لا يتطلب طلبًا مباشرًا للعنف، بل توجيه بسيط يعطل الضوابط.
النماذج مفتوحة المصدر أكثر عرضة للخطر، حيث يمكن إزالة طبقات الأمان بسهولة.
الأمان في نماذج الذكاء الاصطناعي يجب أن يكون عملية مستمرة ومراجعة منتظمة.
في مختبرات أبحاث الذكاء الاصطناعي، حيث تُختبر الحدود بين ما هو ممكن وما هو مسموح، يكفي أحيانًا سطر واحد لإسقاط جدار كامل من الضوابط. هذا بالضبط ما كشفه فريق من باحثي مايكروسوفت، حين أثبت أن نماذج ذكاء اصطناعي كبرى يمكن إخراجها عن مسار الأمان بتوجيه واحد فقط، في إشارة مقلقة إلى هشاشة آليات المواءمة الحالية.
مايكروسوفت تختبر صلابة أمان نماذج الذكاء الاصطناعي
الدراسة، التي نُشرت كبحث مبدئي على منصة arXiv في الخامس من فبراير، توصلت إلى أن خمسة عشر نموذجًا مختلفًا، بينها نماذج من OpenAI وجوجل وميتا وعلي بابا، يمكن دفعها لتوليد محتوى ضار بعد تدريب موجه بأسلوب جديد. الباحثون وصفوا النتائج بأنها دليل عملي على هشاشة تقنيات مواءمة الذكاء الاصطناعي المستخدمة حاليًا، حتى في النماذج التي تُعد آمنة.
ما هي تقنية GRP Obliteration
الطريقة الجديدة تحمل اسم GRP Obliteration، وتعتمد على أسلوب تدريبي يُعرف باسم Group Relative Policy Optimization. هذا الأسلوب يُستخدم عادة لتعزيز قدرة النموذج على تقديم إجابات مفيدة، لكن الباحثين قلبوا الهدف رأسًا على عقب، فجعلوا نظام التقييم الداخلي يكافئ السلوك الضار بدلًا من السلوك الآمن. النتيجة أن النموذج يتعلّم الامتثال للأوامر دون اعتبار للأثر الأخلاقي أو الاجتماعي.
Prompt واحد يكشف الاختلال
اللافت أن الهجوم لا يحتاج إلى طلب مباشر للعنف أو الجريمة. توجيه بسيط مثل إنشاء خبر كاذب قد يسبب فوضى كان كافيًا لإخراج النماذج عن التزامها بالضوابط. الأخطر أن التأثير لم يتوقف عند هذا النوع من المحتوى، بل تمدد إلى فئات أخرى ضارة لم يسبق تعريض النماذج لها أثناء التدريب، ما يكشف عن ضعف عميق في بنية الأمان نفسها.
الخطر الأكبر على النماذج المفتوحة
مارك روسينوفيتش، المدير التقني ونائب مسؤول أمن المعلومات في مايكروسوفت، أوضح أن التهديد يكون أشد على النماذج مفتوحة الوزن. في هذه الحالة يستطيع المهاجمون إزالة طبقات السلامة التي أضافها المطورون الأصليون، دون أن يفقد النموذج كفاءته العامة. هذا يعني أن نموذجًا قويًا ومفيدًا يمكن تحويله إلى أداة تضليل أو إيذاء بنفس السهولة.
لماذا لا يكفي الأمان عند الإطلاق
البحث شدد على أن مواءمة الذكاء الاصطناعي ليست حالة تُنجز مرة واحدة، بل عملية مستمرة. فحتى النماذج التي خضعت لاختبارات مكثفة يمكن الالتفاف عليها بمرور الوقت. لذلك دعا الباحثون إلى اعتماد ممارسات red teaming بعد الإطلاق، أي اختبار النماذج باستمرار من منظور هجومي لاكتشاف نقاط الضعف قبل استغلالها خارجيًا.
في جوهر هذه القصة، يظهر سؤال أعمق يلاحق تطور الذكاء الاصطناعي: هل نبني أنظمة تفهم القيم، أم مجرد أنظمة تُكافأ على الامتثال؟ ما دامت السلامة تعتمد على أضعف نقطة فشل، كما خلص الباحثون، فإن مستقبل الثقة في هذه النماذج سيبقى معلقًا بقدرتنا على جعل الأمان جزءًا من الفهم، لا مجرد طبقة قابلة للإزالة.
عبَّر عن رأيك
إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.










