Nouveau point chaud des concours de grands modèles : le saut de la longueur du texte de 4k à 400k tokens
La technologie des grands modèles se développe à une vitesse incroyable, la capacité de traitement de texte passant de 4k tokens à 400k tokens, la capacité à traiter de longs textes semble devenir une nouvelle norme pour les fournisseurs de grands modèles.
À l'étranger, OpenAI a, par plusieurs mises à jour, porté la longueur de contexte de GPT-3.5 et GPT-4 à respectivement 16k et 32k token. Son concurrent Anthropic a porté la longueur de contexte à 100k token. LongLLaMA a même étendu la longueur de contexte à 256k token voire plus.
Dans le domaine national, un produit d'assistant intelligent lancé par une start-up peut prendre en charge l'entrée d'environ 40k tokens de texte. La technologie LongLoRA développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT peut étendre la longueur du texte du modèle 7B à 100k tokens et celle du modèle 70B à 32k tokens.
Actuellement, de nombreuses entreprises de modèles de pointe et institutions de recherche, tant nationales qu'internationales, considèrent l'extension de la longueur du contexte comme une direction de mise à niveau prioritaire. La plupart de ces entreprises sont des stars convoitées par le marché des capitaux, avec des montants de financement et des évaluations atteignant des sommets historiques.
Que signifie le fait que les entreprises de grands modèles se concentrent sur la technologie des longs textes ? À première vue, cela semble être une amélioration de la longueur du texte d'entrée et de la capacité de lecture, passant d'un court article à un roman long. Un sens plus profond réside dans la promotion de l'application pratique des grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche scientifique, afin de répondre aux besoins de traitement de documents longs dans ces domaines.
Cependant, la longueur du texte n'est pas nécessairement un indicateur de qualité. Des études montrent que le soutien des modèles à des entrées contextuelles plus longues ne se traduit pas directement par une amélioration des performances, l'essentiel étant de savoir comment le modèle utilise le contenu contextuel. Cependant, l'exploration de la longueur du texte dans l'industrie n'a pas encore atteint ses limites, 400k tokens n'est peut-être que le début.
La technologie des longs textes attire l'attention car elle peut résoudre certains problèmes des grands modèles dans les premières étapes, tels que l'oubli d'informations importantes dans les scènes de personnages virtuels et les limitations de la génération d'analyses dans des domaines spécialisés. En même temps, les longs textes sont également une technologie clé pour faire progresser le développement des applications natives pour les agents et l'IA dans le futur.
Un texte long peut aider le modèle à comprendre plus précisément le sens en fournissant plus de contexte et d'informations détaillées, réduisant ainsi l'ambiguïté et améliorant la précision du raisonnement. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
La technologie des textes longs présente de nombreux avantages dans les applications pratiques : elle permet d'analyser rapidement les points clés des longs articles, d'extraire des informations clés des rapports financiers et de réaliser des questions-réponses sur des livres entiers ; en ce qui concerne le code, elle peut directement transformer des articles en code ; elle permet également de réaliser des fonctions de dialogue long personnalisées telles que le jeu de rôle. Ces fonctionnalités poussent les robots de dialogue vers une spécialisation, une personnalisation et une profondeur accrues.
Cependant, la technologie du long texte est confrontée au dilemme du "triangle impossible" : il existe des contraintes mutuelles entre la longueur du texte, l'attention et la puissance de calcul. Plus le texte est long, plus il est difficile de se concentrer sur l'attention, tandis que le traitement de longs textes nécessite également plus de puissance de calcul. Ce dilemme découle de la structure Transformer adoptée par la plupart des modèles, dont le volume de calcul du mécanisme d'auto-attention augmente de manière quadratique avec la longueur du contexte.
Il existe actuellement trois solutions principales : utiliser des outils externes pour aider au traitement, optimiser le calcul du mécanisme d'attention automatique, et optimiser le modèle lui-même. Chaque solution a ses avantages et ses inconvénients, et trouver le meilleur point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul est le défi auquel sont confrontés les fournisseurs de grands modèles.
Bien que la technologie des longs textes ait encore des marges d'optimisation, elle représente la tendance à l'évolution des grands modèles vers des niveaux supérieurs et devrait favoriser des applications révolutionnaires de l'IA dans davantage de domaines spécialisés.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
11 J'aime
Récompense
11
6
Partager
Commentaire
0/400
AirdropHunterWang
· Il y a 16h
le token est encore en hausse, buddy
Voir l'originalRépondre0
GasGuzzler
· 07-13 18:22
40w token...Puissance de calcul doit exploser, n'est-ce pas
Voir l'originalRépondre0
BoredRiceBall
· 07-13 18:22
40w... nous sommes un peu plus proches de l'humanité.
Voir l'originalRépondre0
digital_archaeologist
· 07-13 18:22
Puissance de calcul avertissement !
Voir l'originalRépondre0
AltcoinOracle
· 07-13 18:18
fascinant de voir comment la complexité de l'algorithme évolue avec 400k tokens... cassure claire des modèles d'attention hérités à vrai dire
Voir l'originalRépondre0
DeFiGrayling
· 07-13 17:56
Comment peut-on tout lire avec autant de longueur ?!
La longueur de texte des grands modèles a dépassé 400 000 tokens, la technologie des longs textes devient une nouvelle piste pour l'IA.
Nouveau point chaud des concours de grands modèles : le saut de la longueur du texte de 4k à 400k tokens
La technologie des grands modèles se développe à une vitesse incroyable, la capacité de traitement de texte passant de 4k tokens à 400k tokens, la capacité à traiter de longs textes semble devenir une nouvelle norme pour les fournisseurs de grands modèles.
À l'étranger, OpenAI a, par plusieurs mises à jour, porté la longueur de contexte de GPT-3.5 et GPT-4 à respectivement 16k et 32k token. Son concurrent Anthropic a porté la longueur de contexte à 100k token. LongLLaMA a même étendu la longueur de contexte à 256k token voire plus.
Dans le domaine national, un produit d'assistant intelligent lancé par une start-up peut prendre en charge l'entrée d'environ 40k tokens de texte. La technologie LongLoRA développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT peut étendre la longueur du texte du modèle 7B à 100k tokens et celle du modèle 70B à 32k tokens.
Actuellement, de nombreuses entreprises de modèles de pointe et institutions de recherche, tant nationales qu'internationales, considèrent l'extension de la longueur du contexte comme une direction de mise à niveau prioritaire. La plupart de ces entreprises sont des stars convoitées par le marché des capitaux, avec des montants de financement et des évaluations atteignant des sommets historiques.
Que signifie le fait que les entreprises de grands modèles se concentrent sur la technologie des longs textes ? À première vue, cela semble être une amélioration de la longueur du texte d'entrée et de la capacité de lecture, passant d'un court article à un roman long. Un sens plus profond réside dans la promotion de l'application pratique des grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche scientifique, afin de répondre aux besoins de traitement de documents longs dans ces domaines.
Cependant, la longueur du texte n'est pas nécessairement un indicateur de qualité. Des études montrent que le soutien des modèles à des entrées contextuelles plus longues ne se traduit pas directement par une amélioration des performances, l'essentiel étant de savoir comment le modèle utilise le contenu contextuel. Cependant, l'exploration de la longueur du texte dans l'industrie n'a pas encore atteint ses limites, 400k tokens n'est peut-être que le début.
La technologie des longs textes attire l'attention car elle peut résoudre certains problèmes des grands modèles dans les premières étapes, tels que l'oubli d'informations importantes dans les scènes de personnages virtuels et les limitations de la génération d'analyses dans des domaines spécialisés. En même temps, les longs textes sont également une technologie clé pour faire progresser le développement des applications natives pour les agents et l'IA dans le futur.
Un texte long peut aider le modèle à comprendre plus précisément le sens en fournissant plus de contexte et d'informations détaillées, réduisant ainsi l'ambiguïté et améliorant la précision du raisonnement. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
La technologie des textes longs présente de nombreux avantages dans les applications pratiques : elle permet d'analyser rapidement les points clés des longs articles, d'extraire des informations clés des rapports financiers et de réaliser des questions-réponses sur des livres entiers ; en ce qui concerne le code, elle peut directement transformer des articles en code ; elle permet également de réaliser des fonctions de dialogue long personnalisées telles que le jeu de rôle. Ces fonctionnalités poussent les robots de dialogue vers une spécialisation, une personnalisation et une profondeur accrues.
Cependant, la technologie du long texte est confrontée au dilemme du "triangle impossible" : il existe des contraintes mutuelles entre la longueur du texte, l'attention et la puissance de calcul. Plus le texte est long, plus il est difficile de se concentrer sur l'attention, tandis que le traitement de longs textes nécessite également plus de puissance de calcul. Ce dilemme découle de la structure Transformer adoptée par la plupart des modèles, dont le volume de calcul du mécanisme d'auto-attention augmente de manière quadratique avec la longueur du contexte.
Il existe actuellement trois solutions principales : utiliser des outils externes pour aider au traitement, optimiser le calcul du mécanisme d'attention automatique, et optimiser le modèle lui-même. Chaque solution a ses avantages et ses inconvénients, et trouver le meilleur point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul est le défi auquel sont confrontés les fournisseurs de grands modèles.
Bien que la technologie des longs textes ait encore des marges d'optimisation, elle représente la tendance à l'évolution des grands modèles vers des niveaux supérieurs et devrait favoriser des applications révolutionnaires de l'IA dans davantage de domaines spécialisés.