تجربة تكشف كيف تطوّر خوارزمية جينية برومبتات تتجاوز سياسات الذكاء الاصطناعي
يكشف المطور نيسارج باتيل عن خوارزمية جينية تكسر قيود نماذج اللغة آلياً.
الخوارزمية تقيم برومبتات وتحسنها لتتجاوز سياسات الأمان بدقة وفاعلية.
التجربة توضح أن غياب النتائج يكشف قوة لا ضعف، حيث تقلل الإنذارات الكاذبة.
منهجية الاختبارات تتحول نحو أتمتة تطورية تغطي نطاقًا أوسع من التقييمات اليدوية.
الخوارزميات تلعب دورًا محوريًا في فهم وتقييم متانة نماذج الذكاء الاصطناعي.
في عالم نماذج الذكاء الاصطناعي، تختبئ أكثر المعارك إثارة خلف سطور من النصوص التي لا يراها المستخدم العادي. هناك، بين الأوامر والتعليمات، تدور مواجهة هادئة بين آليات الحماية ومحاولات الالتفاف عليها. مؤخراً، كشف المطور نيسارج باتيل عن تجربة لافتة: بناء خوارزمية جينية قادرة على محاولة “كسر” قيود نماذج اللغة آلياً، لا عبر صياغة بشرية ذكية، بل عبر التطور والانتقاء الطبيعي.
خوارزمية جينية بدل مهندس برومبت
الفكرة بسيطة نظرياً وعميقة عملياً. بدلاً من أن يجلس مختبر أمني ليبتكر عشرات صيغ التحايل على نموذج لغوي، تَتولى خوارزمية جينية المهمة. تبدأ بمجموعة أولية من البرومبتات المستوحاة من أنماط معروفة: لعب أدوار، سياقات افتراضية، ادعاء سلطة، أو حقن معلومات داخل السؤال. ثم تُقيَّم كل صيغة وفق “دالة ملاءمة” تقيس مدى نجاحها في تجاوز سياسات الأمان.
الأفضل يبقى، الأضعف يُستبعد. يتم دمج العبارات الناجحة، إدخال طفرات نصية صغيرة، وإعادة الاختبار عبر أجيال متتالية. العملية أقرب إلى مختبر تطوري رقمي يختبر حدود نموذج اللغة بلا ملل أو تحيز بشري.
المعيار الصارم يكشف الحقيقة
النقطة الفارقة في تجربة باتيل كانت عتبة التقييم. النسخة الإنتاجية من النظام، والتي أطلق عليها اسم JailbreakerX ضمن إطار AXIOM، تعتمد درجة 0.85 كحد أدنى لاعتبار الهجوم ناجحاً. هذه عتبة مرتفعة تعني أن الرد لم يكن مبهماً أو متحايلاً جزئياً، بل تجاوز فعلي وواضح لضوابط الأمان.
عند اختبار النموذج المحلي llama3.2 بحجم 1B عبر Ollama، لم تنجح أي صيغة في بلوغ العتبة المحددة. في المراحل التجريبية ذات العتبة المنخفضة، ظهرت “نتائج” بدت مثيرة، لكنها في الواقع كانت استجابات رمادية قابلة للتأويل. هنا يتضح الفارق بين عرض استعراضي مبهِر وتدقيق أمني جاد.
- غياب النتائج يُسجل كنقطة قوة لا كإخفاق.
- التحقق الصارم يقلل الضجيج ويمنع الإنذارات الكاذبة.
- القياس الكمي يمنح تقارير الاختبار مصداقية أعلى.
من اختبار يدوي إلى أتمتة تطورية
التحول الأهم ليس في نجاح الهجوم أو فشله، بل في المنهجية نفسها. المساحة الاحتمالية لبرومبتات اللغة واسعة إلى حد يصعب على البشر استكشافها بالكامل. خوارزمية تتعامل مع مئات المحاولات في كل جيل قادرة على تغطية نطاق أوسع بكثير من أي فريق اختبارات يدوي.
هذا يعكس اتجاهاً متنامياً في أمن الذكاء الاصطناعي: الانتقال من استكشاف قائم على الحدس والخبرة، إلى اختبار منهجي مدعوم بالخوارزميات. فالنماذج اللغوية ليست تطبيقات ويب تقليدية يمكن حصر ثغراتها في قائمة معروفة؛ بل أنظمة عالية الأبعاد تتشكل استجابتها من السياق والصياغة والنبرة.
ما الذي يعنيه ذلك للصناعة؟
ضمن إطار AXIOM، تُسجل نتائج JailbreakerX داخل نظام تقييم خاص يضيف بُعد “تجاوز السلامة” إلى منهجيات القياس الشبيهة بـ CVSS. هذه الخطوة تعكس محاولة لإضفاء طابع معياري على اختبارات نماذج اللغة، وتحويلها من تجارب عشوائية إلى تقارير قابلة للمقارنة.
الأهم أن النتيجة النظيفة لا تُعد نقصاً. في بيئة تتسابق فيها بعض الأدوات لإثبات وجود ثغرات بأي ثمن، تصبح القدرة على القول “لا يوجد اختراق مؤكد” بحد ذاته علامة نضج. اختبار لا يجد شيئاً قد يكون أكثر قيمة من اختبار يجد كل شيء.
السباق القادم: ما وراء الجيل الحالي
ما يلفت في هذه التجربة ليس قدرتها على كسر النماذج، بل قدرتها على قياس متانتها. ومع تصاعد الاهتمام بقضايا المحاذاة، تسريب البيانات التدريبية، والامتثال التنظيمي، ستزداد أهمية الاختبارات التطورية والأتمتة في تقييم المخاطر.
في النهاية، يبدو أن المواجهة بين أنظمة الحماية ومحاولات التحايل تدخل مرحلة جديدة: خوارزميات تهاجم وخوارزميات تدافع. وبينهما، سيُقاس نضج الذكاء الاصطناعي بقدرته على الصمود أمام اختبارات لا تتعب.
عبَّر عن رأيك
إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.
LEAP26








