De acordo com a visão tradicional, os conceitos de aprendizado de máquina envolvidos na IA e nos grandes modelos concentram-se principalmente no campo da "visão", após esforços incessantes, agora se expandiu para o campo da audição. A Universidade de Tsinghua cooperou com a Volcano Speech Team para lançar um modelo auditivo de código aberto de orientação cognitiva SALMONN, cujo nome vem da sigla de Speech Audio Language Music Open Neural Network. Link de demonstração:
Do ponto de vista humano, a visão e a audição são sistemas de informação independentes e cooperativos. Mas do ponto de vista dos computadores, grandes modelos, etc., envolvendo IA, o salto da visão para a audição não é de forma alguma tão simples como mover a boca ou os dedos. O significado disso pode ser resumido no famoso ditado da lua americana pioneiro do desembarque Armstrong: "Esse é um pequeno passo para o homem, um salto gigante para a humanidade."
Diferente da entrada de voz tradicional ou dos assistentes de voz, não é difícil descobrir pelo nome que SALMONN tem a capacidade de perceber e compreender várias entradas de sinais de áudio, como fala, voz, áudio e música, o que equivale a adicionar Colocar os ouvidos e, em seguida, desenvolver habilidades mais complexas e de alta dimensão, como o raciocínio multilíngue e intermodal nesta base. Especificamente, o grande modelo subjacente do SALMONN é o Vicuna 13B, a famosa "alpaca", além de um codificador de áudio geral baseado no Whisper Encoder e um dispositivo de fusão responsável por alinhar as modalidades de áudio e texto. Com a cooperação deste conjunto de recursos, a SALMONN tem a capacidade de perceber diretamente informações de áudio.
No entanto, os métodos tradicionais de processamento de áudio são relativamente complicados: após receber o sinal de áudio, é necessário chamar a ferramenta subjacente por meio da API para converter o áudio em informações de texto e, em seguida, inserir as informações de texto no modelo grande para processamento posterior. Por outro lado, SALMONN pode adquirir conhecimento diretamente do mundo real e também possui boa capacidade de compreensão e processamento em alguns cenários complexos. E como os dados de treinamento são todos baseados em instruções de texto, também pode-se dizer que possui capacidade de interação intermodal.
Diagrama de análise de modelo lançado oficialmente
A julgar pelas notícias atuais, SALMONN é capaz de realizar uma variedade de tarefas relacionadas à fala e, ao mesmo tempo, possui uma variedade de recursos multilíngues e intermodais que não foram especialmente aprendidos durante o treinamento, como reconhecimento de fala em diferentes idiomas, tradução do inglês para outros idiomas, resumo e extração de palavras-chave do conteúdo da fala, geração de histórias a partir de áudio, resposta a perguntas em áudio, raciocínio conjunto de fala e áudio, etc.
De acordo com a equipe oficial, as tarefas que o SALMONN pode realizar podem ser divididas em três categorias de acordo com o grau de fácil a difícil: 1. Tarefas que foram aprendidas durante o treinamento, 2. Tarefas que não foram aprendidas durante o treinamento, mas o SALMONN pode ser concluído com base na entrada de texto 3. Tarefas que não foram aprendidas no treinamento e requerem um grande modelo multimodal que percebe diretamente áudio ou vídeo para serem concluídas.
Se você apenas lê artigos e demonstrações, é fácil pensar que SALMONN é "apenas isso", mas como mencionado anteriormente, a visão mecânica e a audição mecânica pertencem a dois campos. Entre os conceitos como AGI (Inteligência Artificial Geral) e aprendizado de máquina que são frequentemente mencionados, as pesquisas sobre audição ainda vêm na forma de “assistentes de voz” ou similares, como o Siri, que chegou ao iPhone há uma dúzia de anos. Embora o conceito seja muito avançado, o desenvolvimento da audição mecânica não tem sido tão rápido e produtivo quanto a visão mecânica há muito tempo. Embora conceitos como AGI e modelos grandes estejam muito quentes, a audição mecânica ainda parece ser discreta.
**A razão para tal dilema se deve principalmente às diferenças inatas entre a audição mecânica e a visão mecânica, e a uma série de dificuldades causadas por ela. ** Foi anunciado no passado que o Siri da Apple já é um assistente de voz de boa qualidade, mas ainda é frequentemente ridicularizado como "retardo mental artificial". Mais tarde, foi relatado que a Apple também estava muito insatisfeita com o Siri. Ele raramente foi mencionado em conferências anteriores. Mesmo que seja mencionado, pode ser apenas "mais inteligente" e "mais poderoso". Antes de Mark Gurman dar a notícia de que a Apple também disse quando desenvolveu secretamente o Apple GPT, o departamento Siri ficou preso em um atoleiro ingrato por muito tempo. A Apple vem tentando fazer uma atualização revolucionária para o Siri há muitos anos, e até planejou uma linha de produção separada para esse fim., para criar um novo produto, pode ser uma boa maneira de integrar Apple GPT e Siri, um modelo grande que pode reconhecer voz e ser controlado por voz é muito legal.
O SALMONN lançado conjuntamente pela Universidade de Tsinghua e Volcano Voice pode estar nesse caminho e realmente demonstrou uma nova jogabilidade.Talvez mais novos produtos semelhantes sejam lançados em breve.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O novo progresso dos modelos domésticos em grande escala, a luz brilha no campo da audição
De acordo com a visão tradicional, os conceitos de aprendizado de máquina envolvidos na IA e nos grandes modelos concentram-se principalmente no campo da "visão", após esforços incessantes, agora se expandiu para o campo da audição. A Universidade de Tsinghua cooperou com a Volcano Speech Team para lançar um modelo auditivo de código aberto de orientação cognitiva SALMONN, cujo nome vem da sigla de Speech Audio Language Music Open Neural Network. Link de demonstração:
Do ponto de vista humano, a visão e a audição são sistemas de informação independentes e cooperativos. Mas do ponto de vista dos computadores, grandes modelos, etc., envolvendo IA, o salto da visão para a audição não é de forma alguma tão simples como mover a boca ou os dedos. O significado disso pode ser resumido no famoso ditado da lua americana pioneiro do desembarque Armstrong: "Esse é um pequeno passo para o homem, um salto gigante para a humanidade."
No entanto, os métodos tradicionais de processamento de áudio são relativamente complicados: após receber o sinal de áudio, é necessário chamar a ferramenta subjacente por meio da API para converter o áudio em informações de texto e, em seguida, inserir as informações de texto no modelo grande para processamento posterior. Por outro lado, SALMONN pode adquirir conhecimento diretamente do mundo real e também possui boa capacidade de compreensão e processamento em alguns cenários complexos. E como os dados de treinamento são todos baseados em instruções de texto, também pode-se dizer que possui capacidade de interação intermodal.
A julgar pelas notícias atuais, SALMONN é capaz de realizar uma variedade de tarefas relacionadas à fala e, ao mesmo tempo, possui uma variedade de recursos multilíngues e intermodais que não foram especialmente aprendidos durante o treinamento, como reconhecimento de fala em diferentes idiomas, tradução do inglês para outros idiomas, resumo e extração de palavras-chave do conteúdo da fala, geração de histórias a partir de áudio, resposta a perguntas em áudio, raciocínio conjunto de fala e áudio, etc.
De acordo com a equipe oficial, as tarefas que o SALMONN pode realizar podem ser divididas em três categorias de acordo com o grau de fácil a difícil: 1. Tarefas que foram aprendidas durante o treinamento, 2. Tarefas que não foram aprendidas durante o treinamento, mas o SALMONN pode ser concluído com base na entrada de texto 3. Tarefas que não foram aprendidas no treinamento e requerem um grande modelo multimodal que percebe diretamente áudio ou vídeo para serem concluídas.
**A razão para tal dilema se deve principalmente às diferenças inatas entre a audição mecânica e a visão mecânica, e a uma série de dificuldades causadas por ela. ** Foi anunciado no passado que o Siri da Apple já é um assistente de voz de boa qualidade, mas ainda é frequentemente ridicularizado como "retardo mental artificial". Mais tarde, foi relatado que a Apple também estava muito insatisfeita com o Siri. Ele raramente foi mencionado em conferências anteriores. Mesmo que seja mencionado, pode ser apenas "mais inteligente" e "mais poderoso". Antes de Mark Gurman dar a notícia de que a Apple também disse quando desenvolveu secretamente o Apple GPT, o departamento Siri ficou preso em um atoleiro ingrato por muito tempo. A Apple vem tentando fazer uma atualização revolucionária para o Siri há muitos anos, e até planejou uma linha de produção separada para esse fim., para criar um novo produto, pode ser uma boa maneira de integrar Apple GPT e Siri, um modelo grande que pode reconhecer voz e ser controlado por voz é muito legal.