Selon la vision traditionnelle, les concepts d'apprentissage automatique impliqués dans l'IA et les grands modèles se concentrent principalement dans le domaine de la « vision », mais après des efforts inlassables, ils se sont désormais étendus au domaine de l'audition. L'Université Tsinghua a coopéré avec l'équipe Volcano Speech pour lancer un modèle auditif open source à orientation cognitive SALMONN, dont le nom vient de l'acronyme de Speech Audio Language Music Open Neural Network. Lien de démonstration :
D'un point de vue humain, la vision et l'ouïe sont des systèmes d'information à la fois indépendants et coopératifs. Mais du point de vue des ordinateurs, des grands modèles, etc. impliquant l'IA, le passage de la vision à l'audition n'est en aucun cas aussi simple que de bouger la bouche ou les doigts. Sa signification peut être résumée dans le célèbre dicton de la lune américaine. Armstrong, pionnier du débarquement : "C'est un petit pas pour l'homme, un pas de géant pour l'humanité."
Différent de la saisie vocale traditionnelle ou des assistants vocaux, il n'est pas difficile de découvrir d'après le nom que SALMONN a la capacité de percevoir et de comprendre diverses entrées de signaux audio telles que la parole, la voix, l'audio et la musique, ce qui équivaut à ajouter Mettre les oreilles, puis développer des capacités plus complexes et de grande dimension telles que le raisonnement multilingue et multimodal sur cette base. Plus précisément, le grand modèle sous-jacent de SALMONN est le Vicuna 13B, le fameux "alpaga", plus un encodeur audio général basé sur Whisper Encoder et un dispositif de fusion chargé d'aligner les modalités audio et textuelles. Grâce à la coopération de cet ensemble d’installations, SALMONN a la capacité de percevoir directement les informations audio.
Cependant, les méthodes traditionnelles de traitement audio sont relativement lourdes. Après avoir reçu le signal audio, il est nécessaire d'appeler l'outil sous-jacent via l'API pour convertir l'audio en informations textuelles, puis saisir les informations textuelles dans le grand modèle pour un traitement ultérieur. En revanche, SALMONN peut acquérir directement des connaissances du monde réel et possède également de bonnes capacités de compréhension et de traitement dans certains scénarios complexes. Et comme les données de formation sont toutes basées sur des instructions textuelles, on peut également dire qu'elles disposent de capacités d'interaction multimodale.
Diagramme d'analyse de modèle officiellement publié
À en juger par l'actualité actuelle, SALMONN est capable d'effectuer une variété de tâches liées à la parole, et dispose en même temps d'une variété de capacités multilingues et multimodales qui n'ont pas été spécialement apprises pendant la formation, comme la reconnaissance vocale. dans différentes langues, traduction de l'anglais vers d'autres langues, résumé et extraction de mots-clés du contenu vocal, génération d'histoires à partir de l'audio, réponse aux questions audio, raisonnement conjoint de la parole et de l'audio, etc.
Selon l'équipe officielle, les tâches que SALMONN peut réaliser peuvent être divisées en trois catégories selon le degré de facile à difficile : 1. Tâches qui ont été apprises pendant la formation, 2. Tâches qui n'ont pas été apprises pendant la formation, mais SALMONN peut effectuer en fonction de la saisie de texte 3. Tâches qui n'ont pas été apprises en formation et nécessitent un grand modèle multimodal qui perçoit directement l'audio ou la vidéo pour être complétées.
Si vous ne lisez que des articles et des démos, il est facile de penser que SALMONN n'est que "ça", mais comme mentionné précédemment, la vision artificielle et l'audition artificielle appartiennent à deux domaines. Parmi les concepts tels que l'AGI (Intelligence Artificielle Générale) et l'apprentissage automatique qui sont souvent évoqués, les recherches sur l'audition se présentent encore sous la forme d'« assistants vocaux » ou similaires, comme Siri, arrivé sur iPhone il y a une douzaine d'années. Bien que le concept soit très avant-gardiste, le développement de l'audition artificielle n'a pas été aussi rapide et productif que la vision industrielle depuis longtemps. Même si des concepts tels que l'AGI et les grands modèles sont très en vogue, l'audition artificielle semble encore discrète.
**La raison d'un tel dilemme est principalement due aux différences innées entre l'audition artificielle et la vision industrielle, ainsi qu'à une série de difficultés qui en découlent. **Il a été présenté dans le passé que Siri d'Apple était déjà un assistant vocal de bonne qualité, mais il est encore souvent ridiculisé comme un « retard mental artificiel ». Plus tard, il a été rapporté qu'Apple avait également beaucoup d'insatisfaction à l'égard de Siri. Cela a été rarement mentionné lors des conférences précédentes. Même si cela est mentionné, il pourrait être simplement « plus intelligent » et « plus puissant ». Avant que Mark Gurman n'annonce la nouvelle qu'Apple avait également déclaré lors du développement secret d'Apple GPT, le département Siri était coincé dans un bourbier ingrat depuis longtemps. Apple essaie de faire une mise à jour révolutionnaire pour Siri depuis de nombreuses années, et a même prévu une ligne de production distincte à cet effet. , pour créer un nouveau produit, cela peut être un bon moyen d'intégrer Apple GPT et Siri ensemble, un grand modèle qui peut reconnaître la voix et peut être contrôlé par la voix est vraiment cool.
Le SALMONN lancé conjointement par l'Université Tsinghua et Volcano Voice est peut-être sur cette voie, et il a en effet démontré un nouveau gameplay. Peut-être que d'autres nouveaux produits similaires sortiront bientôt.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Les nouveaux progrès des modèles domestiques à grande échelle, la lumière brille dans le domaine de l'audition
Selon la vision traditionnelle, les concepts d'apprentissage automatique impliqués dans l'IA et les grands modèles se concentrent principalement dans le domaine de la « vision », mais après des efforts inlassables, ils se sont désormais étendus au domaine de l'audition. L'Université Tsinghua a coopéré avec l'équipe Volcano Speech pour lancer un modèle auditif open source à orientation cognitive SALMONN, dont le nom vient de l'acronyme de Speech Audio Language Music Open Neural Network. Lien de démonstration :
D'un point de vue humain, la vision et l'ouïe sont des systèmes d'information à la fois indépendants et coopératifs. Mais du point de vue des ordinateurs, des grands modèles, etc. impliquant l'IA, le passage de la vision à l'audition n'est en aucun cas aussi simple que de bouger la bouche ou les doigts. Sa signification peut être résumée dans le célèbre dicton de la lune américaine. Armstrong, pionnier du débarquement : "C'est un petit pas pour l'homme, un pas de géant pour l'humanité."
Cependant, les méthodes traditionnelles de traitement audio sont relativement lourdes. Après avoir reçu le signal audio, il est nécessaire d'appeler l'outil sous-jacent via l'API pour convertir l'audio en informations textuelles, puis saisir les informations textuelles dans le grand modèle pour un traitement ultérieur. En revanche, SALMONN peut acquérir directement des connaissances du monde réel et possède également de bonnes capacités de compréhension et de traitement dans certains scénarios complexes. Et comme les données de formation sont toutes basées sur des instructions textuelles, on peut également dire qu'elles disposent de capacités d'interaction multimodale.
À en juger par l'actualité actuelle, SALMONN est capable d'effectuer une variété de tâches liées à la parole, et dispose en même temps d'une variété de capacités multilingues et multimodales qui n'ont pas été spécialement apprises pendant la formation, comme la reconnaissance vocale. dans différentes langues, traduction de l'anglais vers d'autres langues, résumé et extraction de mots-clés du contenu vocal, génération d'histoires à partir de l'audio, réponse aux questions audio, raisonnement conjoint de la parole et de l'audio, etc.
Selon l'équipe officielle, les tâches que SALMONN peut réaliser peuvent être divisées en trois catégories selon le degré de facile à difficile : 1. Tâches qui ont été apprises pendant la formation, 2. Tâches qui n'ont pas été apprises pendant la formation, mais SALMONN peut effectuer en fonction de la saisie de texte 3. Tâches qui n'ont pas été apprises en formation et nécessitent un grand modèle multimodal qui perçoit directement l'audio ou la vidéo pour être complétées.
**La raison d'un tel dilemme est principalement due aux différences innées entre l'audition artificielle et la vision industrielle, ainsi qu'à une série de difficultés qui en découlent. **Il a été présenté dans le passé que Siri d'Apple était déjà un assistant vocal de bonne qualité, mais il est encore souvent ridiculisé comme un « retard mental artificiel ». Plus tard, il a été rapporté qu'Apple avait également beaucoup d'insatisfaction à l'égard de Siri. Cela a été rarement mentionné lors des conférences précédentes. Même si cela est mentionné, il pourrait être simplement « plus intelligent » et « plus puissant ». Avant que Mark Gurman n'annonce la nouvelle qu'Apple avait également déclaré lors du développement secret d'Apple GPT, le département Siri était coincé dans un bourbier ingrat depuis longtemps. Apple essaie de faire une mise à jour révolutionnaire pour Siri depuis de nombreuses années, et a même prévu une ligne de production distincte à cet effet. , pour créer un nouveau produit, cela peut être un bon moyen d'intégrer Apple GPT et Siri ensemble, un grand modèle qui peut reconnaître la voix et peut être contrôlé par la voix est vraiment cool.