آبل تكشف عن نموذج ذكاء اصطناعي ثوري صغير الحجم يتنقل بين التطبيقات على جهازك
آبل تقدم نموذج Ferret‑UI Lite لإدارة الواجهات الرسومية بكفاءة عالية.
يعمل النموذج محلياً على الأجهزة بعد التقليص دون التضحية بالأداء.
يستخدم النموذج "التكبير أثناء الاستدلال" لتحديد التفاصيل الدقيقة على الشاشة.
ينصب التركيز على التدريب في بيئات غير مثالية لضمان الفاعلية الواقعية.
يدعم النموذج فكرة معالجة البيانات محلياً للحفاظ على الخصوصية.
حين تمسك هاتفك وتنتقل بين تطبيقاتك اليومية، نادراً ما تفكر في حجم التعقيد البصري الذي يراه النظام أمامه: أيقونات صغيرة، نوافذ منبثقة، نصوص دقيقة، وإشعارات تقفز بلا ترتيب. بالنسبة للإنسان، الأمر اعتيادي. أما بالنسبة للذكاء الاصطناعي، فهذه متاهة حقيقية. هنا تحديداً تحاول آبل أن ترسم ملامح مرحلة جديدة من المساعدات الذكية عبر نموذجها الصغير Ferret‑UI Lite.
ثلاثة مليارات معلمة… ولكن
كشفت أبحاث آبل، المنشورة على arXiv والمقدمة إلى OpenReview، عن نموذج متعدد الوسائط بحجم ثلاثة مليارات معلمة فقط، صُمم ليعمل محلياً على الجهاز بدلاً من السحابة. اللافت أنه ينافس، بل يتفوق في بعض الاختبارات، على وكلاء واجهات رسومية أكبر منه بما يصل إلى 24 ضعفاً من حيث عدد المعلمات.
المغزى هنا لا يتعلق بالأرقام بقدر ما يتعلق بالاتجاه: التركيز على الكفاءة بدل التضخم. في زمن سباق النماذج العملاقة، تختار آبل تقليص الحجم مع الحفاظ على الأداء، في محاولة لجعل وكلاء الذكاء الاصطناعي جزءاً مدمجاً في الهاتف نفسه، لا خدمة بعيدة في مركز بيانات.
كيف يفهم الشاشة مثل الإنسان؟
التحدي الأبرز أمام أي نموذج لغوي يحاول التعامل مع الواجهات الرسومية هو قراءة التفاصيل الصغيرة: نص بحجم دقيق، أيقونة شبه متطابقة، زر يكاد لا يُرى. Ferret‑UI Lite يتعامل مع ذلك عبر آلية “التكبير أثناء الاستدلال”، حيث يمسح الشاشة أولاً بنظرة عامة، ثم يقتطع الجزء المرجح ويكبره لتحليله بدقة أعلى.
الفكرة تشبه حركة العين البشرية: نظرة عامة، ثم تركيز على نقطة بعينها. هذا الأسلوب، إلى جانب استخدام التفكير المتسلسل والتعلم المعزز، يمنح النموذج قدرة على اتخاذ قرارات سياقية عند التنقل بين التطبيقات أو تنفيذ مهمة محددة.
التدرّب على الفوضى لا على المثالية
بدلاً من الاعتماد فقط على بيانات بشرية نظيفة، طورت آبل منظومة توليد بيانات اصطناعية تتضمن أربعة أدوار: مولّد مهام، مخطط، منفذ، وناقد. هذه الأدوار تحاكي تفاعلات واقعية داخل التطبيقات، بما في ذلك الأخطاء مثل النقر غير المستجيب أو النوافذ المنبثقة المفاجئة.
هذا النهج يعكس فهماً عملياً لطبيعة الاستخدام اليومي. التطبيقات ليست بيئات مثالية، والقدرة على التعافي من الخطأ قد تكون أكثر أهمية من تنفيذ مهمة واحدة بنجاح. النموذج، وفق النتائج، أظهر أداءً أقوى بفضل تدريبه على هذه السيناريوهات “غير النظيفة”.
الأرقام ومعناها العملي
في اختبارات ScreenSpot‑V2 وScreenSpot‑Pro وOSWorld‑G، حقق النموذج نسب دقة لافتة مقارنة بحجمه. كما سجل تقدماً ملحوظاً في مهام التنقل على AndroidWorld وOSWorld. الأهم أنه تفوق بفارق واضح على نماذج أخرى بالحجم ذاته.
- تحسين دقة تحديد العناصر الدقيقة على الشاشة.
- قدرة أفضل على تنفيذ أوامر متعددة الخطوات ضمن واجهات معقدة.
- أداء مستقر رغم قيود المعالجة المحلية.
مع ذلك، يعترف الباحثون بأن المهام الطويلة والمعقدة ما تزال تمثل تحدياً، ما يشير إلى أن الطريق نحو وكيل رقمي مستقل كلياً لا يزال في بداياته.
نحو سيري تعمل بعينيك
يتزامن هذا البحث مع تقارير عن إعادة تصميم مرتقبة للمساعد الشخصي سيري في iOS 26.4. نموذج قادر على قراءة الشاشة والتفاعل معها محلياً يمكن أن يشكل البنية التقنية لمساعد يفهم السياق الفعلي لما تراه، لا مجرد الأوامر الصوتية المعزولة.
هنا تتقاطع الراحة مع الخصوصية. تشغيل وكيل واجهات رسومية على الجهاز يعني أن الرسائل، والبيانات المالية، والمعلومات الصحية، لا تغادر الهاتف. هذا يعزز سردية آبل الطويلة حول المعالجة المحلية كميزة تنافسية في مواجهة منصات تعتمد بشكل أوسع على الحوسبة السحابية.
ما تقوم به آبل لا يبدو محاولة للفوز في سباق “الأكبر هو الأفضل”، بل إعادة تعريف لما يعنيه الذكاء الاصطناعي الشخصي: نموذج أصغر، أكثر كفاءة، يعمل بهدوء في الخلفية، ويفهم ما على شاشتك كما لو كان ينظر معك. السؤال لم يعد إن كان الهاتف سيصبح وكيلاً رقمياً حقيقياً، بل متى يصبح ذلك أمراً اعتيادياً لا نلتفت إليه.
عبَّر عن رأيك
إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.










