النموذج الجديد لاستنساخ الصوت مفتوح المصدر من MyShell OpenVoice يصل إلى الساحة

آخر تحديث 3 يناير 2024

4 د

شركات ناشئة متعددة، بما فيها ElevenLabs التي تكتسب شهرة متزايدة، جمعت ملايين الدولارات لتطوير خوارزميات وبرمجيات الذكاء الاصطناعي المتخصصة في استنساخ الصوت. هذه البرمجيات قادرة على محاكاة أصوات المستخدمين بشكل دقيق.

في هذا السياق، ظهر حل جديد يُعرف بـ OpenVoice، تم تطويره بالتعاون بين معهد ماساتشوستس للتكنولوجيا (MIT)، وجامعة تسينغهوا في بكين، الصين، إلى جانب أعضاء من شركة MyShell الكندية الناشئة في مجال الذكاء الاصطناعي. يوفر OpenVoice إمكانية استنساخ الصوت مفتوح المصدر، ويتميز بسرعة استجابته وقدرته على توفير تحكم دقيق لم يكن متاحًا في منصات أخرى.

شركة MyShell ذكرت في منشور اليوم على حسابها الرسمي على منصة X، قائلة: "نحن نوفر استنساخًا دقيقًا للأصوات بجودة لا مثيل لها، متضمنًا التحكم الكامل في النغمة، من العواطف إلى اللهجة، والإيقاع، والتوقفات، والتنغيم، وذلك باستخدام مقطع صوتي صغير."

شركة MyShell، بالتعاون مع معهد ماساتشوستس للتكنولوجيا (MIT) وجامعة تسينغهوا في بكين، قامت بإطلاق OpenVoice، وهو حل جديد لاستنساخ الصوت مفتوح المصدر. الشركة ذكرت أيضًا أنها قدمت رابطًا لورقة بحثية مراجعة تشرح تطوير OpenVoice، وأتاحت روابط لتجربة البرنامج في عدة مواقع، منها واجهة تطبيق الويب MyShell التي تتطلب تسجيل الدخول للوصول، وعلى منصة HuggingFace التي تتيح الوصول بدون حساب.

في حدث VentureBeat لتأثير الذكاء الاصطناعي، تم الإعلان عن دعوة للمشاركة في مخطط حوكمة الذكاء الاصطناعي في العاشر من يناير.

من جانبه، أفاد Zengyi Qin، أحد الباحثين الرئيسيين في MIT وMyShell، عبر البريد الإلكتروني لـ VentureBeat بأن MyShell تسعى لإفادة مجتمع البحث بأكمله. أوضح أن OpenVoice هو مجرد البداية، وأنهم يخططون لتقديم المنح ومجموعات البيانات والقدرات الحاسوبية لدعم مجتمع البحوث مفتوح المصدر في المستقبل. وشدد على أن الرؤية الأساسية لـ MyShell هي "الذكاء الاصطناعي للجميع".

بالنسبة لأسباب تركيز MyShell على نموذج الذكاء الاصطناعي لاستنساخ الصوت مفتوح المصدر، ذكر Qin أن اللغة والرؤية والصوت هي الأسس الثلاثة للذكاء الاصطناعي العام المستقبلي (AGI). وأكد أنه رغم وجود نماذج مفتوحة المصدر جيدة في مجالي اللغة والرؤية، إلا أن هناك نقصًا في نموذج جيد لاستنساخ الصوت، خاصةً لنموذج استنساخ صوت فوري قوي يسمح بتخصيص الصوت الناتج، وهذا ما دفعهم للعمل في هذا المجال.

استخدام تقنية OpenVoice

عند استخدام OpenVoice، وهي تقنية استنساخ الصوت الجديدة المتاحة على منصة HuggingFace، يمكن للمستخدمين بشكل عام إنشاء نسخ صوتية مقنعة بسرعة وسهولة. هذه النسخ، على الرغم من أنها قد تبدو آلية إلى حد ما، تنشأ في غضون ثوانٍ فقط باستخدام كلام عشوائي.

ما يميز OpenVoice عن تطبيقات استنساخ الصوت الأخرى هو عدم الحاجة إلى قراءة نص محدد لتحليل الصوت. يمكن للمستخدمين ببساطة التحدث بشكل طبيعي لبضع ثوانٍ، وسيقوم النظام بإنشاء نسخة صوتية يمكن تشغيلها على الفور واستخدامها لقراءة النص المقدم.

يتيح OpenVoice أيضًا للمستخدمين تعديل "الأسلوب" من خلال مجموعة متنوعة من الإعدادات، مثل البهجة، الحزن، الود، والغضب، باستخدام قائمة منسدلة. هذا يتيح سماع تغيير واضح في نغمة الصوت لتتناسب مع هذه المشاعر المختلفة.

كيف تم تطوير OpenVoice

في ورقتهم العلمية، يصف المبتكرون الأربعة لـ OpenVoice - Qin وWenliang Zhao وXumin Yu من جامعة Tsinghua، وXin Sun من MyShell - كيفية تطويرهم للذكاء الاصطناعي لاستنساخ الصوت.

يتضمن OpenVoice نموذجين مختلفين للذكاء الاصطناعي: نموذج تحويل النص إلى كلام (TTS) ونموذج "محول النغمات". النموذج الأول يتحكم في "معلمات الأسلوب واللغات" وقد تم تدريبه على عينات صوتية متنوعة لمتحدثين باللغة الإنجليزية، الصينية واليابانية، مع تصنيف كل عينة حسب المشاعر المعبر عنها. تعلم النموذج أيضًا التجويد، الإيقاع، والتوقفات.

أما نموذج "محول النغمات" فتم تدريبه على أكثر من 300,000 عينة صوتية من أكثر من 20,000 متحدث مختلف. في كلتا الحالتين، تم تحويل الصوت البشري إلى صوتيات، وتمثل بتضمينات متجهة.

باستخدام "مكبر صوت أساسي" لنموذج TTS، ثم دمجه مع النغمة المستمدة من الصوت المسجل المقدم من المستخدم، يمكن للنموذجين معًا إعادة إنتاج صوت المستخدم مع إمكانية تغيير "لون النغمة" أو العاطفة المعبرة في النص المنطوق.

من يقف وراء OpenVoice؟

شركة MyShell، المؤسسة في عام 2023 في كالجاري، ألبرتا، كندا، أثارت الانتباه بعد جولة تمويل أولية بلغت قيمتها 5.6 مليون دولار، بقيادة INCE Capital ومع مشاركة من Folius Ventures، Hashkey Capital، SevenX Ventures، TSVC، وOP Crypto. بحسب ما ورد في ساس نيوز، فإن الشركة تمتلك الآن قاعدة مستخدمين تتجاوز 400,000 مستخدم. وقد لوحظ وجود أكثر من 61,000 مستخدم على خادم Discord الخاص بالشركة خلال الفترة التي سبقت كتابة هذه المقالة.

ذو صلة

تعرف الشركة نفسها بأنها "منصة شاملة ولامركزية لاكتشاف، إنشاء، وتطبيقات الذكاء الاصطناعي."

بالإضافة إلى تقديم OpenVoice، يشمل تطبيق الويب الخاص بالشركة مجموعة متنوعة من شخصيات الذكاء الاصطناعي المستندة إلى النصوص والروبوتات ذات "شخصيات" متنوعة، تشبه إلى حد ما Character.AI، بما في ذلك بعض الشخصيات الخاصة بالبالغين (NSFW). يحتوي التطبيق أيضًا على أداة لصنع الصور المتحركة GIF وألعاب تقمص الأدوار النصية التي يصنعها المستخدمون، بعضها يضم عناصر من امتيازات معروفة محمية بحقوق الطبع والنشر مثل Harry Potter وMarvel.

أحلى ماعندنا ، واصل لعندك! سجل بنشرة أراجيك البريدية

بالنقر على زر “التسجيل”، فإنك توافق شروط الخدمة وسياسية الخصوصية وتلقي رسائل بريدية من أراجيك

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّةواحترم الكاتب والأعضاء والقُرّاء.