400 000 tokens deviennent la nouvelle norme des grands modèles, la capacité de traiter de longs textes pourrait déclencher une révolution industrielle.
La capacité des grands modèles à traiter de longs textes s'améliore rapidement, 400 000 tokens n'est peut-être que le début.
La capacité de traitement de longs textes des grands modèles s'améliore à une vitesse incroyable. De 4000 tokens au départ à 400 000 tokens aujourd'hui, cette augmentation de capacité est visible à l'œil nu.
La capacité de traitement de longs textes semble être devenue un "standard" pour les grands fournisseurs de modèles. À l'international, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à 16 000 et 32 000 tokens respectivement grâce à plusieurs mises à jour. Anthropic a même porté la longueur de contexte de son modèle Claude à 100 000 tokens. LongLLaMA a poussé ce chiffre à 256 000 tokens, voire plus.
En Chine, la startup de modèles de grande taille, Mois de l'obscurité, a lancé Kimi Chat qui prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur de texte d'un modèle de 7B à 100 000 tokens, tandis qu'un modèle de 70B peut atteindre 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de modèles de grande taille, y compris OpenAI, Anthropic, Meta et Moonlight, mettent l'accent sur l'expansion de la longueur de contexte comme direction de mise à niveau clé. Ces entreprises sont toutes des favorites du marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, la valorisation d'Anthropic devrait atteindre 30 milliards de dollars, et Moonlight a complété plusieurs tours de financement en six mois, avec une valorisation dépassant 300 millions de dollars.
Que signifie une augmentation centuple de la longueur du contexte ? À première vue, cela élargit la portée de lecture du modèle. Passer de la capacité de lire un court article à celle de lire facilement un roman. À un niveau plus profond, les technologies de texte long propulsent l'application des grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche.
Cependant, la longueur du texte n'est pas toujours synonyme de qualité. Des recherches montrent que le fait qu'un modèle supporte des entrées contextuelles plus longues ne signifie pas nécessairement une amélioration des performances. L'essentiel réside dans la manière dont le modèle utilise efficacement le contenu contextuel.
Néanmoins, l'exploration actuelle de la longueur des textes semble ne pas avoir atteint le "point critique". Les entreprises de modèles de grande taille, tant nationales qu'internationales, continuent de repousser les limites, 400 000 tokens pourraient n'être qu'un début.
Le développement de la technologie des longs textes a non seulement résolu certains problèmes rencontrés par les grands modèles au début, mais a également ouvert la voie à une application industrielle plus poussée. Cela marque l'entrée du développement des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
À l'avenir, les assistants IA qui s'éloignent des simples tours de dialogue se dirigent vers une spécialisation, une personnalisation et une profondeur accrues. Cela pourrait devenir un nouvel outil pour activer les applications industrielles et créer des super applications.
Cependant, la technologie des longs textes est toujours confrontée au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. Actuellement, on recherche des solutions à travers l'optimisation du mécanisme d'auto-attention, l'utilisation d'outils externes pour aider au traitement et l'optimisation des modèles.
L'orientation future du développement réside dans la recherche du meilleur point d'équilibre entre les trois, afin de traiter suffisamment d'informations tout en tenant compte des limites de calcul de l'attention et des coûts de puissance de calcul. L'amélioration continue des capacités des longs textes ouvrira des perspectives d'application plus larges pour les grands modèles.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
5 J'aime
Récompense
5
5
Partager
Commentaire
0/400
DefiPlaybook
· Il y a 8h
Encore en train d'augmenter RAM, ça ressemble à une hausse de TVL.
Voir l'originalRépondre0
HorizonHunter
· Il y a 18h
40w va également dépasser la mémoire, n'est-ce pas ?
Voir l'originalRépondre0
SelfStaking
· Il y a 18h
On a ajouté jusqu'à 400 000, c'est vraiment impressionnant.
400 000 tokens deviennent la nouvelle norme des grands modèles, la capacité de traiter de longs textes pourrait déclencher une révolution industrielle.
La capacité des grands modèles à traiter de longs textes s'améliore rapidement, 400 000 tokens n'est peut-être que le début.
La capacité de traitement de longs textes des grands modèles s'améliore à une vitesse incroyable. De 4000 tokens au départ à 400 000 tokens aujourd'hui, cette augmentation de capacité est visible à l'œil nu.
La capacité de traitement de longs textes semble être devenue un "standard" pour les grands fournisseurs de modèles. À l'international, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à 16 000 et 32 000 tokens respectivement grâce à plusieurs mises à jour. Anthropic a même porté la longueur de contexte de son modèle Claude à 100 000 tokens. LongLLaMA a poussé ce chiffre à 256 000 tokens, voire plus.
En Chine, la startup de modèles de grande taille, Mois de l'obscurité, a lancé Kimi Chat qui prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur de texte d'un modèle de 7B à 100 000 tokens, tandis qu'un modèle de 70B peut atteindre 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de modèles de grande taille, y compris OpenAI, Anthropic, Meta et Moonlight, mettent l'accent sur l'expansion de la longueur de contexte comme direction de mise à niveau clé. Ces entreprises sont toutes des favorites du marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, la valorisation d'Anthropic devrait atteindre 30 milliards de dollars, et Moonlight a complété plusieurs tours de financement en six mois, avec une valorisation dépassant 300 millions de dollars.
Que signifie une augmentation centuple de la longueur du contexte ? À première vue, cela élargit la portée de lecture du modèle. Passer de la capacité de lire un court article à celle de lire facilement un roman. À un niveau plus profond, les technologies de texte long propulsent l'application des grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche.
Cependant, la longueur du texte n'est pas toujours synonyme de qualité. Des recherches montrent que le fait qu'un modèle supporte des entrées contextuelles plus longues ne signifie pas nécessairement une amélioration des performances. L'essentiel réside dans la manière dont le modèle utilise efficacement le contenu contextuel.
Néanmoins, l'exploration actuelle de la longueur des textes semble ne pas avoir atteint le "point critique". Les entreprises de modèles de grande taille, tant nationales qu'internationales, continuent de repousser les limites, 400 000 tokens pourraient n'être qu'un début.
Le développement de la technologie des longs textes a non seulement résolu certains problèmes rencontrés par les grands modèles au début, mais a également ouvert la voie à une application industrielle plus poussée. Cela marque l'entrée du développement des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.
À l'avenir, les assistants IA qui s'éloignent des simples tours de dialogue se dirigent vers une spécialisation, une personnalisation et une profondeur accrues. Cela pourrait devenir un nouvel outil pour activer les applications industrielles et créer des super applications.
Cependant, la technologie des longs textes est toujours confrontée au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. Actuellement, on recherche des solutions à travers l'optimisation du mécanisme d'auto-attention, l'utilisation d'outils externes pour aider au traitement et l'optimisation des modèles.
L'orientation future du développement réside dans la recherche du meilleur point d'équilibre entre les trois, afin de traiter suffisamment d'informations tout en tenant compte des limites de calcul de l'attention et des coûts de puissance de calcul. L'amélioration continue des capacités des longs textes ouvrira des perspectives d'application plus larges pour les grands modèles.