El nuevo avance de los modelos domésticos a gran escala, la luz brilla en el campo de la audición

Según la visión tradicional, los conceptos de aprendizaje automático involucrados en la IA y los modelos grandes se concentran principalmente en el campo de la "visión" y, después de incansables esfuerzos, ahora se han expandido al campo de la audición. La Universidad de Tsinghua cooperó con Volcano Speech Team para lanzar un modelo auditivo de código abierto orientado a la cognitiva SALMONN, cuyo nombre proviene del acrónimo de Speech Audio Language Music Open Neural Network. Enlace de demostración:

Desde un punto de vista humano, la visión y el oído son sistemas de información independientes y cooperativos. Pero desde la perspectiva de los ordenadores, los grandes modelos, etc., que utilizan IA, el salto de la visión al oído no es tan sencillo como mover la boca o los dedos, cuyo significado se puede resumir en el famoso dicho de la luna americana. Armstrong, pionero del aterrizaje: "Ese es un pequeño paso para el hombre, un gran salto para la humanidad".

A diferencia de la entrada de voz tradicional o los asistentes de voz, no es difícil descubrir por el nombre que SALMONN tiene la capacidad de percibir y comprender varias entradas de señales de audio, como voz, voz, audio y música, lo que equivale a agregar Ponerse las orejas y luego desarrollar habilidades más complejas y de mayor dimensión, como el razonamiento multilingüe y multimodal sobre esta base. En concreto, el modelo grande subyacente de SALMONN es Vicuña 13B, la famosa "alpaca", además de un codificador de audio general basado en Whisper Encoder, y un dispositivo de fusión responsable de alinear las modalidades de audio y texto. Con la cooperación de este conjunto de instalaciones, SALMONN tiene la capacidad de percibir directamente información de audio.

Sin embargo, los métodos tradicionales de procesamiento de audio son relativamente engorrosos: después de recibir la señal de audio, es necesario llamar a la herramienta subyacente a través de la API para convertir el audio en información de texto y luego ingresar la información de texto en el modelo grande para su procesamiento posterior. Por el contrario, SALMONN puede adquirir conocimientos directamente del mundo real y también tiene buenas capacidades de comprensión y procesamiento en algunos escenarios complejos. Y dado que todos los datos de entrenamiento se basan en instrucciones de texto, también se puede decir que tiene capacidades de interacción intermodal.

Diagrama de análisis del modelo publicado oficialmente.

A juzgar por las noticias actuales, SALMONN es capaz de realizar una variedad de tareas relacionadas con el habla y, al mismo tiempo, tiene una variedad de capacidades multilingües y multimodales que no se han aprendido especialmente durante el entrenamiento, como el reconocimiento de voz. en diferentes idiomas, traducción del inglés a otros idiomas, resumen y extracción de palabras clave del contenido del discurso, generación de historias a partir de audio, respuesta de preguntas en audio, razonamiento conjunto del discurso y el audio, etc.

Según el equipo oficial, las tareas que SALMONN puede realizar se pueden dividir en tres categorías según el grado de fácil a difícil: 1. Tareas que se han aprendido durante el entrenamiento, 2. Tareas que no se han aprendido durante el entrenamiento, pero SALMONN se puede completar basándose en la entrada de texto 3. Tareas que no se han aprendido en la capacitación y requieren un modelo grande multimodal que percibe directamente audio o video para completarse.

Si solo lee artículos y demostraciones, es fácil pensar que SALMONN es "solo eso", pero como se mencionó anteriormente, la visión artificial y la audición artificial pertenecen a dos campos, entre ellos conceptos como AGI (Inteligencia artificial general) y aprendizaje automático. Como se menciona a menudo, las investigaciones sobre la audición todavía llegan en forma de “asistentes de voz” o similares, como Siri, que llegó al iPhone hace una docena de años. Aunque el concepto es muy vanguardista, el desarrollo de la audición automática no ha sido tan rápido y productivo como la visión artificial durante mucho tiempo. Aunque conceptos como AGI y modelos grandes están muy de moda, la audición automática todavía parece pasar desapercibida.

**La razón de tal dilema se debe principalmente a las diferencias innatas entre la audición y la visión artificial, y una serie de dificultades causadas por ello. ** En el pasado se anunció que Siri de Apple ya es un asistente de voz de buena calidad, pero todavía a menudo se lo ridiculiza como "retraso mental artificial". Más tarde, se informó que Apple también estaba muy insatisfecho con Siri. Rara vez se mencionó en conferencias anteriores. Incluso si se menciona, puede que sea simplemente "más inteligente" y "más poderoso". Antes de que Mark Gurman diera la noticia que Apple también dijo cuando desarrolló en secreto Apple GPT, el departamento de Siri había estado atrapado en un atolladero ingrato durante mucho tiempo. Apple ha estado tratando de hacer una actualización revolucionaria para Siri durante muchos años, e incluso planeó una línea de producción separada para este propósito. Para crear un nuevo producto, puede ser una buena manera de integrar Apple GPT y Siri juntos, un modelo grande que puede reconocer la voz y puede ser controlado por voz es realmente genial.

SALMONN, lanzado conjuntamente por la Universidad de Tsinghua y Volcano Voice, puede estar en ese camino y, de hecho, ha demostrado una nueva jugabilidad. Quizás pronto salgan más productos nuevos similares.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)