نموذج DeepSeek الجديد يقلّل التكلفة 20 مرة… بتحويل النص إلى صورة!
3 د
في خطوة جديدة تعزز كفاءة الذكاء الاصطناعي وتقليل تكاليفه التشغيلية، أعلن مطورون صينيون عن نسخة حديثة من نموذج DeepSeek تتمتع بقدرات متعددة الوسائط تتيح لها تحويل النصوص والمستندات إلى صور قبل معالجتها، ما يقلل من استهلاك الموارد الرقمية بنسبة تصل إلى عشرين ضعفاً مقارنة بالأساليب التقليدية.
يقول القائمون على المشروع إن هذه التقنية – التي يطلقون عليها اسم “ضغط النصوص بصرياً” (Vision‑Text Compression) – تمكّن الأنظمة من التعامل مع كميات هائلة من البيانات النصية دون الحاجة إلى عدد كبير من “التوكنز” التي تمثل وحدات القراءة بين السطور في الذكاء الاصطناعي. النتيجة: أداء أسرع بتكاليف تشغيل أقل مع الحفاظ على دقة عالية.
وهذا التطور يرتبط مباشرة برحلة DeepSeek السابقة التي أثارت ضجة مطلع عام 2025 بقدرتها على منافسة منصات كـ ChatGPT وGemini مع استهلاك أقل للبيانات والطاقة.
بنية مزدوجة توازن بين الرؤية والفهم
يتكون النموذج من جزأين رئيسيين: DeepEncoder الذي يحول النصوص إلى صور عالية الدقة، و DeepSeek3B‑MoE‑A570M الذي يقوم بدور المفسر لتلك الصور. يعمل النظام عبر تقسيم المهام إلى شبكات فرعية صغيرة وتوزيعها على “خبراء متخصصين”، ما يضمن فهماً دقيقاً للسياق اللغوي في أقل عدد من الخطوات الحاسوبية.
هذا الاستخدام المبتكر لمجال التعرف البصري (OCR) لا يقتصر على النصوص فقط، بل أثبت كفاءة عالية في قراءة الجداول والرسوم البيانية والبيانات العلمية المعقدة، وهو ما يجعله أداة واعدة لقطاعات مثل التمويل والطب والبحث العلمي.
وهنا نرى كيف تمتد فلسفة التصميم في DeepSeek من مجرد خفض الكلفة إلى إعادة تعريف طريقة تفاعل الذكاء الاصطناعي مع المعلومات متعددة الأبعاد.
نتائج الأداء والاختبارات
تشير اختبارات المطورين إلى أن DeepSeek‑OCR يحافظ على دقة تبلغ 97٪ عندما يكون معدل الضغط أقل من عشرة أضعاف، بينما تنخفض الدقة إلى حوالي 60٪ عند زيادة الضغط لعشرين مرة، مما يوضح وجود حدود عملية لهذه التقنية. مع ذلك، حتى ضغط بسيط بمقدار مرتين فقط يمكن أن يحدث فرقاً اقتصادياً هائلاً في تشغيل النماذج الضخمة.
ويؤكد الباحثون أن التقنية قد تشكل أساساً لتوليد بيانات تدريب مضغوطة للنماذج المستقبلية، شريطة ضبط نسبة الأخطاء لتفادي أي انحراف في جودة المخرجات.
وهذا يفتح الباب أمام نقاش أوسع حول توازن الكفاءة مقابل الموثوقية في تطوير أنظمة الذكاء الاصطناعي القادمة.
إتاحة مفتوحة للمطورين
المثير أن النموذج متاح حالياً للتجربة عبر منصات المطورين مثل Hugging Face وGitHub، مما يمنح الباحثين حول العالم فرصة دراسة آلية “التحويل البصري للنصوص” وتطبيقها على احتياجاتهم الخاصة، سواء في تحليل المستندات أو ضغط البيانات أو بناء أدوات ذكاء اصطناعي جديدة.
من الواضح أن DeepSeek يواصل تثبيت موقعه كأحد أكثر المشاريع الصينية جرأة في مجال الذكاء الاصطناعي، فهو لا يسعى فقط للسرعة أو الدقة، بل لإعادة تعريف العلاقة بين الرؤية والنص، بين المعلومة وشكل تمثيلها. وإذا استمر نجاح “الضغط البصري للنصوص”، فقد نكون أمام خطوة مفصلية في جعل التعامل مع الكم الهائل من البيانات أكثر ذكاءً واقتصاداً من أي وقت مضى.
عبَّر عن رأيك
إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.