تحويل الكلمات إلى رسوم هي أحدث ما توصل إليه الخبراء في مجال الرسم بالذكاء الاصطناعي، سنتحدث معكم عن مشروعين مميزين جدًا في هذا المجال وكيف تبدو الصور المولدة باستخدام الكلمات فقط، وما إن كانت هذه التقنية الجديدة قد تشكل تهديدًا لمصممي الجرافيكس والفنانين عموماً

"الرسم بالكلمات"، هذه المرة لا نتكلم عن إحدى قصائد الشاعر نزار قباني وإنما عن طفرة جديدة من طفرات الذكاء الاصطناعي التي ستسمح لك بإنشاء صور ولوحات فنية حتى ولو لم تكن تمتلك مهارة الرسم أو التصميم. فقط يكفي أن تمتلك خيالًا خصبًا واترك الباقي للذكاء الاصطناعي.

لفترة طويلة بقي مجال الفن والإبداع من المجالات التي اعتقدنا أن الذكاء الاصطناعي سيعجز عن دخولها بسهولة وإحداث تغيير جذري فيها ولكن كنا مخطئين، فنحن على أعتاب عصر جديد من الفن والإبداع المعزّز بالتكنولوجيا تقوم فيه الشبكات العصبية الاصطناعية (ANNs) بإنتاج عمل فني كامل من نقطة الصفر، وذلك بتحويل ما يخطر ببالك من كلمات -أيًا كانت- إلى رسوم وصور واقعية أو لوحات فنية لم يعبر عنها أحد من قبل. فهل ستصدق الشائعات ويحل الذكاء الاصطناعي مكان البشر؟ وهل يجب أن يقلق الفنانون ومصممو الغرافيك على مستقبلهم المهني؟

اقرأ أيضًا: أدوبي سينساي: مستقبل تحرير الصور كما يرسمه الذكاء الاصطناعي.

ما هي  الشبكات العصبية الاصطناعية (ANNs) وكيف تعمل؟

الشبكات العصبية الاصطناعية "Artificial Neural Networks" اسمها وبنيتها  مستوحاة من العقل البشري، وهي إحدى نماذج التعلم العميق الذي يحاكي طريقة عمل الخلايا العصبية في الدماغ البشري، تلعب دورًا كبيرًا في التعلم الآلي، يُمكن تدريب الشبكات العصبية الاصطناعية بالاعتماد على خوارزميات معينة على التعرف على الكلام أو البيانات النصية أو الصور المرئية.

تستغرق مهام التعرف على الكلام والصور دقائق مقابل ساعات عند مقارنتها مع التعرف اليدوي الذي يحدث من قبل البشر، تدعم هذه الشبكات الذكاء الاصطناعي كما أنها تشكل الأساس لعدد كبير من التطورات التي حدثت فيه خلال السنوات الأخيرة بما فيها أنظمة تحويل الكلمات إلى صور، كما تعد خوارزمية البحث من جوجل واحدة من أكثر الشبكات العصبية الاصطناعية شهرة في العالم.

تحتوي الشبكة العصبية الاصطناعية على ثلاث طبقات أو أكثر مترابطة، تتكون الطبقة الأولى من الخلايا العصبية المدخلة، ترسل هذه الخلايا العصبية البيانات إلى الطبقات الأعمق، والتي بدورها ترسل بيانات الإخراج النهائية إلى طبقة الإخراج الأخيرة. 

أشهر تطبيقات الذكاء الاصطناعي لتحويل الرسوم إلى كلمات

تعتمد خدمات تحويل الرسوم إلى كلمات باستخدام الذكاء الاصطناعي على عاملين أساسيين، الأول وهو القص "Clip" والذي يعتمد على معرفة الذكاء الاصطناعي لما تبدو عليه العناصر التي تصفها له بشكل فردي، فمثلًا إذا أدخلت إليه الجملة الآتية: "دب يركب سفينة فضائية" فإن الذكاء الاصطناعي سيكون على علم بشكل كل من الدب، والركوب، والسفينة الفضائية. ومن ثم يتم الانتقال إلى العامل الثاني وهو الدمج "Diffusion" والذي يعتمد على طريقة دمج تلك العناصر معًا في صورة واحدة وتحسينها عن طريق حذف ضوضاء غاوسي "Guassion Noise"

DALL- E2

في يناير 2021، طوّرت شركة OpenAI نموذجًا أوليًا للذكاء الاصطناعي يسمى DALL-E قادرًا على تحويل الكلمات إلى رسوم، قام مطورو OpenAI بجمع بيانات عن ملايين الصور لتدريب خوارزمية DALL-E لإعطاء المخرجات المطلوبة، إلا أن النتائج التي قدمها لم تكن جميعها مرضية، ومع ذلك رأينا بعض النتائج اللافتة للاهتمام كالصورة التالية عندما طُلب منه رسم:

"صورة لطابع بريدي منقوش على الخشب يحتفي بمستكشف كلب نبيل يستخدم التلسكوب"

الرسم باستخدام الذكاء الإصطناعي

ولكن مع الكشف عن النظام المحسن DALL-E 2 في أبريل 2022 والذي تم تصميمه على العامل الأول فقط "Clip" تغير كل شيء فقد أذهل الجميع، بمن فيهم الفنانين ومصممي الغرافيك بقدرته على تحويل اللغة الطبيعية إلى صور، فلم يعد الخيال هو الحد النهائي للإبداع بل وصل الإبداع في DALL-E2 إلى ما يفوق الخيال.

أظهر هذا النظام براعة في التعامل مع الجمل الطويلة والمفصّلة، وأعطى نتائج فاقت التوقعات، وبالمقارنة مع سلفه DALL-E استطاع التفوق عليه بإنتاج صور أكثر واقعية وبدقة أربعة أضعاف، ولكن حتى الآن لم تتم إتاحة هذا النظام للاستخدام العام. أفضل طريقة لفهم القدرة المذهلة لهذه النماذج هي ببساطة إلقاء نظرة على بعض الصور التي يمكن إنشاؤها.

يقوم DALL-E 2 بإنشاء أكثر من صورة لنفس الوصف، وجميعها تظهر بنتائج ستحتاج إلى أيام من العمل للوصول إليها بالإمكانيات البشرية، هذه بعض الأمثلة التي قام النظام بتوليدها من مجرد وصف نصي.

"رائد فضاء يمتطي حصانًا بأسلوب واقعي"

"دٌمى الدببة تتسوق في محلات البقالة في مصر القديمة"

ولا تقتصر أداة DALL-E 2 على توليد الصور من النصوص فقط، وإنما يمكنها أيضًا توليد صور مستوحاة من أعمال فنية، أو إضافة تأثيرات واقعية أو عناصر على صور يتم إدخالها إليها. ما يجعل هذه الأداة مفيدة ويمكن الاستعانة بها في مجالات تصميم الجرافيكس بشكل كبير.

Imagen AI

أصدرت جوجل منافسًا لنظام DALL- E2  وهو نظام "Imagen AI" الذي أنشأه فريق "Google Brain" والذي يتمتع بدرجة غير مسبوقة من الواقعية ومستوى عميق من فهم اللغة حسب ما أكد القائمون عليه، وكما يوحي اسمه يسمح لك بإطلاق العنان لخيالك حيث يلغي Imagen حاجتك لاستخدام برامج مخصصة كالفوتوشوب وغيره لإنتاج صور تعبر عما يدور في خيالك.

كل ما عليك فعله هو كتابة ما تريد رؤيته وهو سيتكفل بتحويل الكلمات إلى رسوم بمجرد إضافة الوصف، فقد تم تدريبه جيدًا على فهم العلاقة بين الصورة والكلمات المستخدمة لوصفها، ولاختبار أدائه طوّر الفريق أداة "DrawBench"  كمعيار يقوم من خلاله البشر بتقييم جودة الصور التي ينتجها نظام Imagen، وبالمقارنة مع الصور التي ينتجها نظام DALL- E2 كان Imagen هو الأفضل من حيث جودة الصور ودقتها وواقعيتها.

مخاوف من إساءة استخدام الرسم بالذكاء الاصطناعي في التزييف والتضليل

قام فريق Open AI بتصفية بعض المدخلات وإزالة المواد التي تحتوي على عنف أو إباحية أو تنمر وغير ذلك للحد من قدرة DALL-E2 على إنتاج محتوى مسيء، كما تتضمن كل صورة يولّدها DALL-E2 علامة مائية تثبت أنها من إنتاج الذكاء الاصطناعي وأنها ليست صورة لمشهد حقيقي من الواقع، كذلك قام فريق Brain  في جوجل بتصفية بعض المدخلات وإزالة المحتوى غير المرغوب فيه لضمان ألا يعطي Imagen مخرجات مسيئة.

ومع ذلك فإن هذه الإجراءات غير كافية حيث تكمن المشكلة في أنه يجري تدريب أنظمة تحويل الكلمات إلى رسوم على كميات هائلة من البيانات التي يتم جمعها واستخراجها من الويب، وقد أكد الباحثون أن تصفية وإزالة المحتوى المسيء منها جميعها بشكل كامل أمر في غاية الصعوبة إن لم يكن مستحيلًا.

وعلى الرغم من أن سياسة كل من Open AI و Google لا تسمح بإنتاج صور تحوي أي مظهر من مظاهر العنف بما فيها الدماء ولكن ببساطة يمكن خداع الآلة من خلال التلاعب بالكلمات للتحويل إلى الرسوم المطلوبة بدون مخالفة سياسة هذه الأنظمة، فبدلًا من كتابة كلمة "دم" يمكن الاستعاضة عنها بكتابة "سائل أحمر اللون" وسيقوم كل من DALL-E2  و Imagen بتوليد الصور المطلوبة دون أي مشكلة.

ولهذه الأسباب ومخافة أن تتسبب هذه الأنظمة بأضرار تفوق منافعها اختار كل من Open AI و Google دراسة هذه التكنولوجيا في بيئة محصورة مؤقتًا حتى يتم نشر الذكاء الاصطناعي بمسؤولية، فقرر كل منهما عدم إطلاق DALL-E2 و Imagen AI للاستخدام العام في الوقت الحاضر إلى أن يتمكن من تطوير المزيد من الضمانات والقيود على استخدام هذه الأنظمة كي لا يساء استخدامها في عمليات التزييف بهدف الإساءة إلى أشخاص معينين أو نشر الفتنة والتضليل.

ولكن يمكنك تجربة أداة مبسطة تقوم بتحويل الكلمات إلى رسوم

وهي أداة تسمى DALL·E mini متاحة للعامة، يمكن استخدامها في كتابة بعض الكلمات ليتم تحويلها إلى رسوم، ولكنها لا تقترب في الدقة والبراعة من الأدوات الأخرى التي تحدثنا عنها سابقًا، فستلاحظ أن جميع النتائج قد تكون "مضحكة" أكثر من كونها احترافية، ولكنها لاتزال تجربة مميزة ننصحك بتمضية الوقت في استخدامها الآن!

كانت هذه بعض النتائج التي وصلنا إليها من استخدام أداة DALL-E mini:

"كلب يتعارك مع قطة في الفضاء"

تحويل الكلمات إلى رسوم - الرسم باستخدام الذكاء الإصطناعي

"رجل يمشي مع كلبه في الحديقة"

تحويل الكلمات إلى رسوم - الرسم باستخدام الذكاء الإصطناعي

هل يشكل الرسم بالذكاء الاصطناعي تهديدًا لمستقبل الفنانين ومصممي الجرافيكس؟

دائمًا عند الحديث عن تطبيقات وأنظمة الذكاء الاصطناعي يتم الإعلان عن كل جديد فيها مع قدر كبير من التهويل المصاحب لشائعات بأن الآلة ستتولى مهام البشر، وأنها تشكل تهديدًا حقيقيًا لمستقبلهم المهني وأنه يجب عليهم البحث عن وظائف أخرى لضمان استمرار عملهم في المستقبل، ومع ظهور وتطور أنظمة تحويل الكلمات إلى رسوم طالت هذه الشائعات مصممي الغرافيك والمبدعين والفنانين إلا أنها أبعد ما تكون عن الواقع.

فما يحدث هو أنه يتم التركيز على ما يمكن للآلة القيام به وتعظيمه مع طمس وإخفاء أوجه القصور في أدائها، والذي يجب أن يدركه الجميع أن الآلة ليست مثالية وحتى الشبكات العصبية لها حدودها، وكونها لم تصل للذكاء العام الذي يتمتع به الدماغ البشري بعد فإنها لا تزال عاجزة عن الابتكار وإيجاد الحلول للمشاكل الطارئة وغير المتوقعة، وكل ما في الأمر أن الآلة تتفوق على الدماغ البشري بسرعة استجابتها وقدرتها على القيام بمهام متعددة، أي أنها ليست تهديدًا وإنما صديقًا وأداة مساعدة يمكن للفنانين ومصممي الغرافيك الاستعانة بها لبلوغ آفاق جديدة من الإبداع دون الخوف أو القلق على مستقبلهم المهني.

وبشكل عام، نعتقد أن تقنية الرسم بالذكاء الاصطناعي ستساعد في جعل حياتنا أسهل، بما في ذلك حياة مصممي الجرافيكس أيضًا، إذ قد يتمكنون من الاستعانة بالذكاء الاصطناعي لاستلهام أفكارهم.