التقدم الجديد للنماذج المحلية واسعة النطاق، يضيء الضوء في مجال السمع

وفقًا لوجهة النظر التقليدية، فإن مفاهيم التعلم الآلي المرتبطة بالذكاء الاصطناعي والنماذج الكبيرة تتركز بشكل أساسي في مجال "الرؤية"، وبعد جهود متواصلة، توسعت الآن إلى مجال السمع. تعاونت جامعة تسينغهوا مع فريق Volcano Speech لإطلاق نموذج سمعي مفتوح المصدر ذو توجه معرفي SALMONN، والذي يأتي اسمه من اختصار Speech Audio Language Music Open Neural Network. الرابط التجريبي:

من وجهة نظر الإنسان، الرؤية والسمع هما نظامان معلومات مستقلان ومتعاونان. ولكن من منظور أجهزة الكمبيوتر والنماذج الكبيرة وما إلى ذلك التي تعتمد على الذكاء الاصطناعي، فإن القفزة من الرؤية إلى السمع ليست بأي حال من الأحوال بسيطة مثل تحريك الفم أو الأصابع، ويمكن تلخيص أهميتها في المقولة الشهيرة للقمر الأمريكي. رائد الهبوط أرمسترونج: "إنها خطوة صغيرة للإنسان، وقفزة عملاقة للبشرية."

يختلف عن الإدخال الصوتي التقليدي أو المساعدين الصوتيين، ليس من الصعب معرفة من الاسم أن SALMONN لديه القدرة على إدراك وفهم مختلف مدخلات الإشارات الصوتية مثل الكلام والصوت والصوت والموسيقى، وهو ما يعادل إضافة وضع الأذنين، ومن ثم تطوير قدرات أكثر تعقيدًا وعالية الأبعاد مثل التفكير متعدد اللغات وعبر الوسائط على هذا الأساس. على وجه التحديد، النموذج الكبير الأساسي لـ SALMONN هو Vicuna 13B، "alpaca" الشهير، بالإضافة إلى برنامج تشفير صوتي عام يعتمد على Whisper Encoder، وجهاز دمج مسؤول عن محاذاة أنماط الصوت والنص. وبالتعاون مع هذه المجموعة من المرافق، يتمتع SALMONN بالقدرة على إدراك المعلومات الصوتية مباشرة.

ومع ذلك، فإن طرق معالجة الصوت التقليدية مرهقة نسبيًا، وبعد تلقي الإشارة الصوتية، من الضروري استدعاء الأداة الأساسية من خلال واجهة برمجة التطبيقات لتحويل الصوت إلى معلومات نصية، ثم إدخال المعلومات النصية في النموذج الكبير للمعالجة اللاحقة. في المقابل، يمكن لـSALMONN اكتساب المعرفة مباشرة من العالم الحقيقي، كما أنها تتمتع بقدرات جيدة على الفهم والمعالجة في بعض السيناريوهات المعقدة. وبما أن بيانات التدريب تعتمد جميعها على تعليمات نصية، فيمكن القول أيضًا أنها تتمتع بقدرات التفاعل عبر الوسائط.

رسم تخطيطي لتحليل النموذج تم إصداره رسميًا

انطلاقًا من الأخبار الحالية، SALMONN قادر على أداء مجموعة متنوعة من المهام المتعلقة بالكلام، وفي الوقت نفسه يتمتع بمجموعة متنوعة من القدرات متعددة اللغات ومتعددة الوسائط التي لم يتم تعلمها بشكل خاص أثناء التدريب، مثل التعرف على الكلام بلغات مختلفة، الترجمة من الإنجليزية إلى لغات أخرى، تلخيص واستخراج الكلمات الرئيسية لمحتوى الكلام، إنشاء القصة من الصوت، الإجابة على الأسئلة الصوتية، التفكير المشترك للكلام والصوت، إلخ.

وفقًا للفريق الرسمي، يمكن تقسيم المهام التي يمكن لـ SALMONN التعامل معها إلى ثلاث فئات حسب الدرجة من السهل إلى الصعب: 1. المهام التي تم تعلمها أثناء التدريب، 2. المهام التي لم يتم تعلمها أثناء التدريب، ولكن SALMONN يمكن إكمالها بناءً على إدخال النص 3. المهام التي لم يتم تعلمها في التدريب وتتطلب نموذجًا كبيرًا متعدد الوسائط يستوعب الصوت أو الفيديو مباشرة لإكماله.

إذا كنت تقرأ الأبحاث والعروض التوضيحية فقط، فمن السهل أن تعتقد أن SALMONN "ليس أكثر من ذلك"، ولكن كما ذكرنا سابقًا، تنتمي الرؤية الآلية والسمع الآلي إلى مجالين. من بين مفاهيم مثل AGI (الذكاء الاصطناعي العام) و التعلم الآلي الذي يتم ذكره كثيرًا، لا تزال الأبحاث المتعلقة بالسمع تأتي في شكل "مساعدين صوتيين" أو ما شابه، مثل Siri، الذي جاء إلى iPhone منذ اثنتي عشرة سنة. على الرغم من أن هذا المفهوم متطور للغاية، إلا أن تطوير السمع الآلي لم يكن سريعًا ومثمرًا مثل الرؤية الآلية لفترة طويلة. وعلى الرغم من أن مفاهيم مثل الذكاء الاصطناعي العام والنماذج الكبيرة رائجة للغاية، إلا أن السمع الآلي لا يزال يبدو غير مزعج.

** يرجع سبب هذه المعضلة بشكل أساسي إلى الاختلافات الفطرية بين السمع الآلي والرؤية الآلية، وسلسلة من الصعوبات الناجمة عنها. ** لقد قيل في الماضي أن سيري من شركة أبل هو بالفعل مساعد صوتي عالي الجودة، ولكن لا يزال يتم السخرية منه في كثير من الأحيان باعتباره "تخلف عقلي مصطنع". في وقت لاحق، أفيد أن شركة آبل كانت أيضًا غير راضية كثيرًا عن سيري، ونادرا ما تم ذكرها في المؤتمرات السابقة، وحتى لو تم ذكرها، فقد تكون مجرد "أكثر ذكاءً" و"أكثر قوة". قبل أن ينشر مارك جورمان الأخبار التي قالتها شركة أبل أيضًا عندما قامت بتطوير Apple GPT سرًا، كان قسم Siri عالقًا في مستنقع ناكر للجميل لفترة طويلة، وكانت شركة Apple تحاول إجراء تحديث ثوري لـ Siri لسنوات عديدة، بل وخططت لذلك خط إنتاج منفصل لهذا الغرض، لإنشاء منتج جديد، قد تكون طريقة جيدة لدمج Apple GPT وSiri معًا، وهو نموذج كبير يمكنه التعرف على الصوت ويمكن التحكم فيه عن طريق الصوت، وهو أمر رائع حقًا.

وربما يكون جهاز SALMONN الذي أطلقته جامعة تسينغهوا وVolcano Voice على هذا الطريق، وقد أظهر بالفعل طريقة لعب جديدة. وربما يتم طرح المزيد من المنتجات الجديدة المماثلة قريبا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت