Согласно традиционному мнению, концепции машинного обучения, задействованные в искусственном интеллекте и больших моделях, в основном сосредоточены в области «видения», но после неустанных усилий теперь они распространились на область слуха. Университет Цинхуа в сотрудничестве с командой Volcano Speech Team запустил когнитивно-ориентированную слуховую модель SALMONN с открытым исходным кодом, название которой происходит от аббревиатуры Speech Audio Language Music Open Neural Network. Ссылка на демо:
С точки зрения человека, зрение и слух являются независимыми и скоординированными информационными системами. Но с точки зрения компьютеров, больших моделей и т. д., включающих искусственный интеллект, переход от зрения к слуху ни в коем случае не так прост, как движение рта или пальцев. пионер Армстронг: "Это один маленький шаг для человека, но гигантский скачок для человечества".
В отличие от традиционного голосового ввода или голосовых помощников, из названия нетрудно понять, что SALMONN обладает способностью воспринимать и понимать различные входные аудиосигналы, такие как речь, голос, звук и музыка, что эквивалентно добавлению Надевание на уши, а затем развитие на этой основе более сложных и многомерных способностей, таких как многоязычное и кроссмодальное мышление. В частности, базовой крупной моделью SALMONN является Vicuna 13B, знаменитая «альпака», а также общий аудиокодер на основе Whisper Encoder и устройство слияния, отвечающее за согласование аудио и текстовых модальностей. Благодаря этому набору средств SALMONN имеет возможность напрямую воспринимать аудиоинформацию.
Однако традиционные методы обработки звука относительно громоздки: после получения аудиосигнала необходимо вызвать базовый инструмент через API для преобразования звука в текстовую информацию, а затем ввести текстовую информацию в большую модель для последующей обработки. Напротив, SALMONN может напрямую получать знания из реального мира, а также обладает хорошими способностями к пониманию и обработке в некоторых сложных сценариях. А поскольку все обучающие данные основаны на текстовых инструкциях, можно также сказать, что они обладают возможностями кросс-модального взаимодействия.
Официально выпущенная диаграмма анализа модели
Судя по текущим новостям, SALMONN способен решать множество задач, связанных с речью, и в то же время обладает множеством многоязычных и кросс-модальных возможностей, которые не изучались специально в ходе обучения, например, распознавание речи на разных языках, перевод с английского на другие языки, обобщение и извлечение ключевых слов речевого содержания, построение рассказа из аудио, ответы на аудиовопросы, совместное рассуждение речи и аудио и т. д.
По мнению официальной команды, задачи, с которыми может справиться SALMONN, можно разделить на три категории по степени от простого к сложному: 1. Задачи, которые были изучены во время обучения, 2. Задачи, которые не были изучены во время обучения, но SALMONN может выполняться на основе ввода текста. 3. Задачи, которые не были изучены в ходе обучения и для выполнения которых требуется мультимодальная большая модель, которая напрямую воспринимает аудио или видео.
Если вы читаете только статьи и демонстрации, легко подумать, что SALMONN — это «просто это», но, как упоминалось ранее, машинное зрение и машинный слух относятся к двум областям. Среди таких концепций, как AGI (общий искусственный интеллект) и машинное обучение о которых часто упоминают. Исследования слуха до сих пор проводятся в форме «голосовых помощников» или чего-то подобного, например, Siri, которая появилась на iPhone дюжину лет назад. Несмотря на то, что такие концепции, как AGI и большие модели, очень популярны, машинный слух по-прежнему кажется ненавязчивым.
**Причина такой дилеммы в основном связана с врожденными различиями между машинным слухом и машинным зрением, а также с рядом вызванных этим трудностей. **Ранее сообщалось, что Siri от Apple уже является качественным голосовым помощником, но ее до сих пор часто высмеивают как «искусственную умственную отсталость». Позже сообщалось, что у Apple также было большое недовольство Siri. На предыдущих конференциях она редко упоминалась. Даже если и упоминается, то, возможно, она просто «умнее» и «мощнее». Прежде чем Марк Гурман сообщил о том, что Apple также заявила, когда тайно разработала Apple GPT, отдел Siri долгое время застрял в неблагодарной трясине: Apple уже много лет пытается сделать революционное обновление для Siri и даже планирует для этой цели отдельная производственная линия. Для создания нового продукта может быть хорошим способом объединить Apple GPT и Siri, большая модель, которая может распознавать голос и управляться с помощью голоса, это действительно круто.
SALMONN, совместно запущенный Университетом Цинхуа и Volcano Voice, возможно, находится на этом пути, и он действительно продемонстрировал новый игровой процесс. Возможно, вскоре появятся и другие подобные новинки.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Новый прогресс отечественных масштабных моделей, свет светит в поле слуха
Согласно традиционному мнению, концепции машинного обучения, задействованные в искусственном интеллекте и больших моделях, в основном сосредоточены в области «видения», но после неустанных усилий теперь они распространились на область слуха. Университет Цинхуа в сотрудничестве с командой Volcano Speech Team запустил когнитивно-ориентированную слуховую модель SALMONN с открытым исходным кодом, название которой происходит от аббревиатуры Speech Audio Language Music Open Neural Network. Ссылка на демо:
С точки зрения человека, зрение и слух являются независимыми и скоординированными информационными системами. Но с точки зрения компьютеров, больших моделей и т. д., включающих искусственный интеллект, переход от зрения к слуху ни в коем случае не так прост, как движение рта или пальцев. пионер Армстронг: "Это один маленький шаг для человека, но гигантский скачок для человечества".
Однако традиционные методы обработки звука относительно громоздки: после получения аудиосигнала необходимо вызвать базовый инструмент через API для преобразования звука в текстовую информацию, а затем ввести текстовую информацию в большую модель для последующей обработки. Напротив, SALMONN может напрямую получать знания из реального мира, а также обладает хорошими способностями к пониманию и обработке в некоторых сложных сценариях. А поскольку все обучающие данные основаны на текстовых инструкциях, можно также сказать, что они обладают возможностями кросс-модального взаимодействия.
Судя по текущим новостям, SALMONN способен решать множество задач, связанных с речью, и в то же время обладает множеством многоязычных и кросс-модальных возможностей, которые не изучались специально в ходе обучения, например, распознавание речи на разных языках, перевод с английского на другие языки, обобщение и извлечение ключевых слов речевого содержания, построение рассказа из аудио, ответы на аудиовопросы, совместное рассуждение речи и аудио и т. д.
По мнению официальной команды, задачи, с которыми может справиться SALMONN, можно разделить на три категории по степени от простого к сложному: 1. Задачи, которые были изучены во время обучения, 2. Задачи, которые не были изучены во время обучения, но SALMONN может выполняться на основе ввода текста. 3. Задачи, которые не были изучены в ходе обучения и для выполнения которых требуется мультимодальная большая модель, которая напрямую воспринимает аудио или видео.
**Причина такой дилеммы в основном связана с врожденными различиями между машинным слухом и машинным зрением, а также с рядом вызванных этим трудностей. **Ранее сообщалось, что Siri от Apple уже является качественным голосовым помощником, но ее до сих пор часто высмеивают как «искусственную умственную отсталость». Позже сообщалось, что у Apple также было большое недовольство Siri. На предыдущих конференциях она редко упоминалась. Даже если и упоминается, то, возможно, она просто «умнее» и «мощнее». Прежде чем Марк Гурман сообщил о том, что Apple также заявила, когда тайно разработала Apple GPT, отдел Siri долгое время застрял в неблагодарной трясине: Apple уже много лет пытается сделать революционное обновление для Siri и даже планирует для этой цели отдельная производственная линия. Для создания нового продукта может быть хорошим способом объединить Apple GPT и Siri, большая модель, которая может распознавать голос и управляться с помощью голоса, это действительно круто.