Nous savons que lors de l'utilisation de grands modèles de langage tels que GPT et LLaMA, il existe une limite de caractères pour l'entrée. Par exemple, la limite actuelle de caractères d'entrée pour ChatGPT est de 4 096 caractères. Cela limite la portée des technologies telles que l’apprentissage contextuel et le chaînage de pensées, car les utilisateurs ne peuvent fournir qu’un nombre limité d’exemples. Récemment, une équipe de recherche de Nous Research, EleutherAI et l'Université de Genève ont proposé YaRN, une solution pour élargir la fenêtre contextuelle, et ont obtenu de meilleurs résultats que toutes les autres méthodes expérimentales. Ils ont également publié LLaMA 2 affiné à l'aide de YaRN 7B/ Modèle 13B avec fenêtres contextuelles de 64k et 128k.
Source de l'image : générée par Unbounded AI
Les grands modèles de langage (LLM) basés sur des transformateurs ont démontré leur puissante capacité à effectuer un apprentissage contextuel (ICL) et sont presque devenus le seul choix pour de nombreuses tâches de traitement du langage naturel (NLP). Le mécanisme d'auto-attention de Transformer permet à la formation d'être hautement parallélisée, permettant ainsi de traiter de longues séquences de manière distribuée. La longueur de la séquence utilisée pour la formation LLM est appelée sa fenêtre contextuelle.
La fenêtre contextuelle d'un Transformer détermine directement la quantité d'espace pouvant fournir des exemples, limitant ainsi ses capacités ICL.
Si la fenêtre contextuelle du modèle est limitée, il y a moins de place pour fournir au modèle des exemples robustes sur lesquels exécuter l'ICL. De plus, d'autres tâches telles que la synthèse sont également gravement entravées lorsque la fenêtre contextuelle du modèle est particulièrement courte.
En raison de la nature même du langage, l’emplacement des jetons est crucial pour une modélisation efficace, et l’auto-attention n’encode pas directement les informations de localisation en raison de son parallélisme. L'architecture Transformer introduit un codage positionnel pour résoudre ce problème.
L'architecture originale du Transformer utilisait un codage de position sinusoïdale absolue, qui a ensuite été amélioré en un codage de position absolue apprenable. Depuis lors, les schémas de codage de position relative ont encore amélioré les performances du transformateur. Actuellement, les codages de position relative les plus populaires sont T5 Relative Bias, RoPE, XPos et ALiBi.
L'encodage positionnel présente une limitation récurrente : l'incapacité de généraliser à la fenêtre contextuelle vue lors de l'entraînement. Bien que certaines méthodes telles que ALiBi aient la capacité de faire une généralisation limitée, aucune méthode ne s'est encore généralisée à des séquences significativement plus longues que sa longueur pré-entraînée.
Plusieurs efforts de recherche ont vu le jour pour tenter de surmonter ces limites. Par exemple, certaines recherches proposent de modifier légèrement RoPE via une interpolation positionnelle (PI) et d'affiner une petite quantité de données pour étendre la longueur du contexte.
Il y a deux mois, Bowen Peng de Nous Research a partagé une solution sur Reddit, qui consiste à mettre en œuvre une « interpolation compatible NTK » en intégrant des pertes haute fréquence. NTK fait ici référence à Neural Tangent Kernel.
Il affirme que le RoPE étendu compatible NTK peut étendre considérablement la fenêtre contextuelle du modèle LLaMA (plus de 8 000) sans aucun réglage fin et avec un impact minimal sur la perplexité.
Récemment, un article connexe rédigé par lui et trois autres collaborateurs a été publié !
* papier:
Modèle:
Dans cet article, ils ont apporté deux améliorations à l’interpolation compatible NTK, qui se concentrent sur différents aspects :
La méthode d'interpolation dynamique NTK peut être utilisée pour les modèles pré-entraînés sans réglage fin.
Méthode d'interpolation NTK partielle, le modèle peut atteindre les meilleures performances lorsqu'il est affiné avec une petite quantité de données contextuelles plus longues.
Le chercheur a déclaré qu'avant la naissance de cet article, les chercheurs avaient déjà utilisé l'interpolation compatible NTK et l'interpolation dynamique NTK dans certains modèles open source. Les exemples incluent Code Llama (utilisant l'interpolation compatible NTK) et Qwen 7B (utilisant l'interpolation NTK dynamique).
Dans cet article, sur la base des résultats de recherches antérieures sur l'interpolation compatible NTK, l'interpolation NTK dynamique et l'interpolation NTK partielle, les chercheurs ont proposé YaRN (Yet another RoPE extensioN method), une méthode qui peut étendre efficacement l'utilisation de l'intégration de position de rotation (Rotary Position Embeddings / RoPE), méthode de fenêtre contextuelle de modèle, peut être utilisée pour les modèles des séries LLaMA, GPT-NeoX et PaLM. L'étude a révélé que YaRN peut actuellement atteindre les meilleures performances d'expansion de la fenêtre contextuelle en utilisant uniquement des échantillons représentatifs d'environ 0,1 % de la taille des données de pré-entraînement du modèle d'origine pour un réglage précis.
méthode
Rotary Position Embeddings (RoPE) a été introduit pour la première fois dans l'article « RoFormer : Enhanced transformer with Rotating Position Embedding » et constitue également la base de YaRN.
En termes simples, RoPE peut s’écrire comme suit :
Pour un LLM pré-entraîné avec une longueur de contexte fixe, si l'interpolation positionnelle (PI) est utilisée pour étendre la longueur du contexte, elle peut être exprimée comme suit :
On peut voir que PI étendra également toutes les dimensions de RoPE. Les chercheurs ont découvert que les limites d'interpolation théoriques décrites dans l'article de PI étaient insuffisantes pour prédire la dynamique complexe entre l'intégration interne de RoPE et de LLM. Ce qui suit décrira les principaux problèmes d'IP découverts et résolus par les chercheurs, afin que les lecteurs puissent comprendre le contexte, les causes et les raisons de la solution de diverses nouvelles méthodes dans YaRN.
Si nous considérons RoPE uniquement du point de vue du codage de l'information, selon la théorie du noyau tangent neuronal (NTK), si la dimension d'entrée est faible et que l'intégration correspondante manque de composants haute fréquence, alors il est difficile pour un réseau neuronal profond de apprendre des informations à haute fréquence.
Afin de résoudre le problème de la perte d'informations haute fréquence lors de l'intégration de l'interpolation pour RoPE, Bowen Peng a proposé une interpolation compatible NTK dans l'article Reddit ci-dessus. Cette approche n'étend pas chaque dimension de RoPE de manière égale, mais répartit la pression d'interpolation sur plusieurs dimensions en élargissant moins les hautes fréquences et davantage les basses fréquences.
Lors des tests, les chercheurs ont constaté que cette approche surpassait l’IP en termes de mise à l’échelle de la taille du contexte du modèle non optimisé. Cependant, cette méthode présente un inconvénient majeur : comme il ne s'agit pas simplement d'un schéma d'interpolation, certaines dimensions seront extrapolées dans certaines valeurs "extérieures", donc le réglage fin à l'aide de l'interpolation compatible NTK n'est pas aussi efficace que PI.
De plus, en raison de l’existence de valeurs « extérieures », le facteur d’expansion théorique ne peut pas décrire avec précision le véritable degré d’expansion du contexte. En pratique, pour une extension de longueur de contexte donnée, la valeur d'extension s doit être légèrement supérieure à la valeur d'extension attendue.
Perte de distance locale relative - interpolation NTK partielle
Pour l'intégration RoPE, il y a une observation intéressante : étant donné une taille de contexte L, il existe certaines dimensions d où la longueur d'onde λ est plus longue que la longueur maximale du contexte observée dans la phase de pré-entraînement (λ > L), ce qui illustre l'intégration de certaines dimensions Répartition éventuellement inégale dans le domaine tournant.
L'interpolation compatible PI et NTK traite toutes les dimensions cachées RoPE de la même manière (comme si elles avaient le même effet sur le réseau). Mais les chercheurs ont découvert grâce à des expériences qu’Internet traite certaines dimensions différemment que d’autres. Comme mentionné précédemment, étant donné la longueur du contexte L, la longueur d'onde λ de certaines dimensions est supérieure ou égale à L. Puisque lorsque la longueur d'onde d'une dimension cachée est supérieure ou égale à L, toutes les paires de positions coderont une distance spécifique, les chercheurs émettent donc l'hypothèse que les informations de position absolue sont conservées ; lorsque la longueur d'onde est plus courte, le réseau ne peut obtenir que la longueur d'onde relative. position.informations.
Lors de l'étirement de toutes les dimensions de RoPE à l'aide du taux d'expansion s ou de la valeur de changement de base b', tous les jetons se rapprochent les uns des autres car le produit scalaire de deux vecteurs ayant subi une rotation inférieure sera plus grand. Cette extension peut sérieusement nuire à la capacité de LLM à comprendre les petites relations locales entre ses intégrations internes. Les chercheurs supposent que cette compression entraînera une confusion du modèle quant à l'ordre de position des jetons à proximité, nuisant ainsi aux capacités du modèle.
Pour résoudre ce problème, sur la base de ce que les chercheurs ont observé, ils ont choisi de ne pas interpoler du tout les dimensions de fréquence plus élevée.
Ils ont également proposé que pour toutes les dimensions d, les dimensions avec r < α soient interpolées linéairement en fonction du degré d'extension s (comme PI, l'extrapolation est évitée) ; les dimensions avec r > β ne sont pas du tout interpolées (toujours extrapolées).
Grâce à la technique décrite dans cette section, une méthode appelée interpolation NTK partielle est née. Cette méthode améliorée surpasse les précédentes méthodes d'interpolation compatibles PI et NTK et fonctionne à la fois sur des modèles non réglés et affinés. Étant donné que cette méthode évite d’extrapoler des dimensions où le domaine de rotation est inégalement réparti, tous les problèmes de réglage fin des méthodes précédentes sont évités.
Mise à l'échelle dynamique - Interpolation NTK dynamique
Lors de la mise à l'échelle de la taille du contexte sans réglage fin à l'aide de la méthode d'interpolation RoPE, nous nous attendons à ce que le modèle se dégrade lentement sur des tailles de contexte plus longues, plutôt que de se dégrader complètement sur la taille entière du contexte lorsque le degré de mise à l'échelle s dépasse la valeur souhaitée.
Dans la méthode NTK dynamique, le degré d'expansion s est calculé dynamiquement.
Lors de l'inférence, lorsque la taille du contexte est dépassée, le degré d'expansion s est modifié dynamiquement, ce qui permet à tous les modèles de se dégrader lentement au lieu de planter soudainement lorsqu'ils atteignent la limite du contexte d'entraînement L.
Ajout d'une similarité minimale moyenne en cosinus pour les longues distances - YaRN
Même si le problème de distance locale décrit précédemment est résolu, une distance plus grande doit être interpolée au seuil α afin d’éviter toute extrapolation. Intuitivement, cela ne semble pas poser de problème, car la distance globale ne nécessite pas une grande précision pour distinguer les positions des jetons (c'est-à-dire que le réseau a seulement besoin de savoir approximativement si le jeton se trouve au début, au milieu ou à la fin de la séquence).
Cependant, les chercheurs ont découvert que puisque la distance minimale moyenne se rapproche à mesure que le nombre de jetons augmente, la distribution du softmax d'attention sera plus nette (c'est-à-dire qu'elle réduira l'entropie moyenne du softmax d'attention). En d’autres termes, à mesure que l’impact de l’atténuation longue distance est réduit par l’interpolation, le réseau « accordera plus d’attention » à davantage de jetons. Ce changement de distribution peut conduire à une dégradation de la qualité des résultats du LLM, ce qui constitue un autre problème sans rapport avec le précédent.
Étant donné que l'entropie dans la distribution d'attention softmax diminue lorsque les plongements RoPE sont interpolés sur des tailles de contexte plus longues, nous visons à inverser cette diminution d'entropie (c'est-à-dire à augmenter la « température » du logit d'attention). Cela peut être fait en multipliant la matrice d'attention intermédiaire par la température t > 1 avant d'appliquer softmax, mais comme l'intégration RoPE est codée comme une matrice de rotation, il est possible d'étendre simplement la longueur de l'intégration RoPE d'un facteur constant √t . Cette technique « d'extension de longueur » permet la recherche sans modifier le code d'attention, ce qui peut grandement simplifier l'intégration avec les processus de formation et d'inférence existants, et la complexité temporelle n'est que de O(1).
Étant donné que ce schéma d'interpolation RoPE interpole de manière non uniforme les dimensions RoPE, il est difficile de calculer une solution analytique pour le rapport de température requis t par rapport au degré d'expansion s. Heureusement, les chercheurs ont découvert grâce à des expériences qu'en minimisant la perplexité, tous les modèles LLaMA suivent à peu près la même courbe d'ajustement :
Les chercheurs ont découvert cette formule sur LLaMA 7B, 13B, 33B et 65B. Ils ont constaté que cette formule fonctionnait également bien pour les modèles LLaMA 2 (7B, 13B et 70B), avec des différences subtiles. Cela suggère que cette propriété d'augmentation de l'entropie est commune et se généralise à différents modèles et données de formation.
Cette dernière modification a abouti à la méthode YaRN. La nouvelle méthode surpasse toutes les méthodes précédentes dans des scénarios affinés ou non, sans nécessiter aucune modification du code d'inférence. Seul l’algorithme utilisé pour générer les plongements RoPE doit en premier lieu être modifié. YaRN est si simple qu'il peut être facilement implémenté dans toutes les bibliothèques d'inférence et de formation, y compris la compatibilité avec Flash Attention 2.
expérience
Les expériences montrent que YaRN peut étendre avec succès la fenêtre contextuelle de LLM. De plus, ils ont obtenu ce résultat après une formation de seulement 400 étapes, ce qui représente environ 0,1 % du corpus initial de pré-formation du modèle, ce qui représente une diminution significative par rapport aux résultats de recherche précédents. Cela montre que la nouvelle méthode est très efficace sur le plan informatique et n’entraîne aucun coût d’inférence supplémentaire.
Pour évaluer le modèle résultant, les chercheurs ont calculé la perplexité des documents longs et les ont notés sur les critères existants, et ont constaté que la nouvelle méthode surpassait toutes les autres méthodes d'expansion de la fenêtre contextuelle.
Premièrement, les chercheurs ont évalué les performances du modèle lorsque la fenêtre contextuelle était augmentée. Le tableau 1 résume les résultats expérimentaux.
Le tableau 2 montre la perplexité finale sur 50 documents GovReport non censurés (d'une longueur d'au moins 16 000 jetons).
Pour tester la dégradation des performances du modèle lors de l'utilisation d'extensions de contexte, nous avons évalué le modèle à l'aide de la suite Hugging Face Open LLM Leaderboard et l'avons comparé aux scores existants du modèle de base LLaMA 2 et aux modèles PI et NTK accessibles au public. Le tableau 3 résume les résultats expérimentaux.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Si vous souhaitez que le grand modèle apprenne plus d'exemples en _, cette méthode vous permet de saisir plus de caractères
Les grands modèles de langage (LLM) basés sur des transformateurs ont démontré leur puissante capacité à effectuer un apprentissage contextuel (ICL) et sont presque devenus le seul choix pour de nombreuses tâches de traitement du langage naturel (NLP). Le mécanisme d'auto-attention de Transformer permet à la formation d'être hautement parallélisée, permettant ainsi de traiter de longues séquences de manière distribuée. La longueur de la séquence utilisée pour la formation LLM est appelée sa fenêtre contextuelle.
La fenêtre contextuelle d'un Transformer détermine directement la quantité d'espace pouvant fournir des exemples, limitant ainsi ses capacités ICL.
En raison de la nature même du langage, l’emplacement des jetons est crucial pour une modélisation efficace, et l’auto-attention n’encode pas directement les informations de localisation en raison de son parallélisme. L'architecture Transformer introduit un codage positionnel pour résoudre ce problème.
L'architecture originale du Transformer utilisait un codage de position sinusoïdale absolue, qui a ensuite été amélioré en un codage de position absolue apprenable. Depuis lors, les schémas de codage de position relative ont encore amélioré les performances du transformateur. Actuellement, les codages de position relative les plus populaires sont T5 Relative Bias, RoPE, XPos et ALiBi.
L'encodage positionnel présente une limitation récurrente : l'incapacité de généraliser à la fenêtre contextuelle vue lors de l'entraînement. Bien que certaines méthodes telles que ALiBi aient la capacité de faire une généralisation limitée, aucune méthode ne s'est encore généralisée à des séquences significativement plus longues que sa longueur pré-entraînée.
Plusieurs efforts de recherche ont vu le jour pour tenter de surmonter ces limites. Par exemple, certaines recherches proposent de modifier légèrement RoPE via une interpolation positionnelle (PI) et d'affiner une petite quantité de données pour étendre la longueur du contexte.
Il y a deux mois, Bowen Peng de Nous Research a partagé une solution sur Reddit, qui consiste à mettre en œuvre une « interpolation compatible NTK » en intégrant des pertes haute fréquence. NTK fait ici référence à Neural Tangent Kernel.
Récemment, un article connexe rédigé par lui et trois autres collaborateurs a été publié !
Dans cet article, ils ont apporté deux améliorations à l’interpolation compatible NTK, qui se concentrent sur différents aspects :
Le chercheur a déclaré qu'avant la naissance de cet article, les chercheurs avaient déjà utilisé l'interpolation compatible NTK et l'interpolation dynamique NTK dans certains modèles open source. Les exemples incluent Code Llama (utilisant l'interpolation compatible NTK) et Qwen 7B (utilisant l'interpolation NTK dynamique).
Dans cet article, sur la base des résultats de recherches antérieures sur l'interpolation compatible NTK, l'interpolation NTK dynamique et l'interpolation NTK partielle, les chercheurs ont proposé YaRN (Yet another RoPE extensioN method), une méthode qui peut étendre efficacement l'utilisation de l'intégration de position de rotation (Rotary Position Embeddings / RoPE), méthode de fenêtre contextuelle de modèle, peut être utilisée pour les modèles des séries LLaMA, GPT-NeoX et PaLM. L'étude a révélé que YaRN peut actuellement atteindre les meilleures performances d'expansion de la fenêtre contextuelle en utilisant uniquement des échantillons représentatifs d'environ 0,1 % de la taille des données de pré-entraînement du modèle d'origine pour un réglage précis.
méthode
Rotary Position Embeddings (RoPE) a été introduit pour la première fois dans l'article « RoFormer : Enhanced transformer with Rotating Position Embedding » et constitue également la base de YaRN.
En termes simples, RoPE peut s’écrire comme suit :
Perte d'informations haute fréquence - Interpolation compatible NTK
Si nous considérons RoPE uniquement du point de vue du codage de l'information, selon la théorie du noyau tangent neuronal (NTK), si la dimension d'entrée est faible et que l'intégration correspondante manque de composants haute fréquence, alors il est difficile pour un réseau neuronal profond de apprendre des informations à haute fréquence.
Afin de résoudre le problème de la perte d'informations haute fréquence lors de l'intégration de l'interpolation pour RoPE, Bowen Peng a proposé une interpolation compatible NTK dans l'article Reddit ci-dessus. Cette approche n'étend pas chaque dimension de RoPE de manière égale, mais répartit la pression d'interpolation sur plusieurs dimensions en élargissant moins les hautes fréquences et davantage les basses fréquences.
Lors des tests, les chercheurs ont constaté que cette approche surpassait l’IP en termes de mise à l’échelle de la taille du contexte du modèle non optimisé. Cependant, cette méthode présente un inconvénient majeur : comme il ne s'agit pas simplement d'un schéma d'interpolation, certaines dimensions seront extrapolées dans certaines valeurs "extérieures", donc le réglage fin à l'aide de l'interpolation compatible NTK n'est pas aussi efficace que PI.
De plus, en raison de l’existence de valeurs « extérieures », le facteur d’expansion théorique ne peut pas décrire avec précision le véritable degré d’expansion du contexte. En pratique, pour une extension de longueur de contexte donnée, la valeur d'extension s doit être légèrement supérieure à la valeur d'extension attendue.
Perte de distance locale relative - interpolation NTK partielle
Pour l'intégration RoPE, il y a une observation intéressante : étant donné une taille de contexte L, il existe certaines dimensions d où la longueur d'onde λ est plus longue que la longueur maximale du contexte observée dans la phase de pré-entraînement (λ > L), ce qui illustre l'intégration de certaines dimensions Répartition éventuellement inégale dans le domaine tournant.
L'interpolation compatible PI et NTK traite toutes les dimensions cachées RoPE de la même manière (comme si elles avaient le même effet sur le réseau). Mais les chercheurs ont découvert grâce à des expériences qu’Internet traite certaines dimensions différemment que d’autres. Comme mentionné précédemment, étant donné la longueur du contexte L, la longueur d'onde λ de certaines dimensions est supérieure ou égale à L. Puisque lorsque la longueur d'onde d'une dimension cachée est supérieure ou égale à L, toutes les paires de positions coderont une distance spécifique, les chercheurs émettent donc l'hypothèse que les informations de position absolue sont conservées ; lorsque la longueur d'onde est plus courte, le réseau ne peut obtenir que la longueur d'onde relative. position.informations.
Lors de l'étirement de toutes les dimensions de RoPE à l'aide du taux d'expansion s ou de la valeur de changement de base b', tous les jetons se rapprochent les uns des autres car le produit scalaire de deux vecteurs ayant subi une rotation inférieure sera plus grand. Cette extension peut sérieusement nuire à la capacité de LLM à comprendre les petites relations locales entre ses intégrations internes. Les chercheurs supposent que cette compression entraînera une confusion du modèle quant à l'ordre de position des jetons à proximité, nuisant ainsi aux capacités du modèle.
Pour résoudre ce problème, sur la base de ce que les chercheurs ont observé, ils ont choisi de ne pas interpoler du tout les dimensions de fréquence plus élevée.
Ils ont également proposé que pour toutes les dimensions d, les dimensions avec r < α soient interpolées linéairement en fonction du degré d'extension s (comme PI, l'extrapolation est évitée) ; les dimensions avec r > β ne sont pas du tout interpolées (toujours extrapolées).
Grâce à la technique décrite dans cette section, une méthode appelée interpolation NTK partielle est née. Cette méthode améliorée surpasse les précédentes méthodes d'interpolation compatibles PI et NTK et fonctionne à la fois sur des modèles non réglés et affinés. Étant donné que cette méthode évite d’extrapoler des dimensions où le domaine de rotation est inégalement réparti, tous les problèmes de réglage fin des méthodes précédentes sont évités.
Mise à l'échelle dynamique - Interpolation NTK dynamique
Lors de la mise à l'échelle de la taille du contexte sans réglage fin à l'aide de la méthode d'interpolation RoPE, nous nous attendons à ce que le modèle se dégrade lentement sur des tailles de contexte plus longues, plutôt que de se dégrader complètement sur la taille entière du contexte lorsque le degré de mise à l'échelle s dépasse la valeur souhaitée.
Dans la méthode NTK dynamique, le degré d'expansion s est calculé dynamiquement.
Lors de l'inférence, lorsque la taille du contexte est dépassée, le degré d'expansion s est modifié dynamiquement, ce qui permet à tous les modèles de se dégrader lentement au lieu de planter soudainement lorsqu'ils atteignent la limite du contexte d'entraînement L.
Ajout d'une similarité minimale moyenne en cosinus pour les longues distances - YaRN
Même si le problème de distance locale décrit précédemment est résolu, une distance plus grande doit être interpolée au seuil α afin d’éviter toute extrapolation. Intuitivement, cela ne semble pas poser de problème, car la distance globale ne nécessite pas une grande précision pour distinguer les positions des jetons (c'est-à-dire que le réseau a seulement besoin de savoir approximativement si le jeton se trouve au début, au milieu ou à la fin de la séquence).
Cependant, les chercheurs ont découvert que puisque la distance minimale moyenne se rapproche à mesure que le nombre de jetons augmente, la distribution du softmax d'attention sera plus nette (c'est-à-dire qu'elle réduira l'entropie moyenne du softmax d'attention). En d’autres termes, à mesure que l’impact de l’atténuation longue distance est réduit par l’interpolation, le réseau « accordera plus d’attention » à davantage de jetons. Ce changement de distribution peut conduire à une dégradation de la qualité des résultats du LLM, ce qui constitue un autre problème sans rapport avec le précédent.
Étant donné que l'entropie dans la distribution d'attention softmax diminue lorsque les plongements RoPE sont interpolés sur des tailles de contexte plus longues, nous visons à inverser cette diminution d'entropie (c'est-à-dire à augmenter la « température » du logit d'attention). Cela peut être fait en multipliant la matrice d'attention intermédiaire par la température t > 1 avant d'appliquer softmax, mais comme l'intégration RoPE est codée comme une matrice de rotation, il est possible d'étendre simplement la longueur de l'intégration RoPE d'un facteur constant √t . Cette technique « d'extension de longueur » permet la recherche sans modifier le code d'attention, ce qui peut grandement simplifier l'intégration avec les processus de formation et d'inférence existants, et la complexité temporelle n'est que de O(1).
Étant donné que ce schéma d'interpolation RoPE interpole de manière non uniforme les dimensions RoPE, il est difficile de calculer une solution analytique pour le rapport de température requis t par rapport au degré d'expansion s. Heureusement, les chercheurs ont découvert grâce à des expériences qu'en minimisant la perplexité, tous les modèles LLaMA suivent à peu près la même courbe d'ajustement :
Cette dernière modification a abouti à la méthode YaRN. La nouvelle méthode surpasse toutes les méthodes précédentes dans des scénarios affinés ou non, sans nécessiter aucune modification du code d'inférence. Seul l’algorithme utilisé pour générer les plongements RoPE doit en premier lieu être modifié. YaRN est si simple qu'il peut être facilement implémenté dans toutes les bibliothèques d'inférence et de formation, y compris la compatibilité avec Flash Attention 2.
expérience
Les expériences montrent que YaRN peut étendre avec succès la fenêtre contextuelle de LLM. De plus, ils ont obtenu ce résultat après une formation de seulement 400 étapes, ce qui représente environ 0,1 % du corpus initial de pré-formation du modèle, ce qui représente une diminution significative par rapport aux résultats de recherche précédents. Cela montre que la nouvelle méthode est très efficace sur le plan informatique et n’entraîne aucun coût d’inférence supplémentaire.
Pour évaluer le modèle résultant, les chercheurs ont calculé la perplexité des documents longs et les ont notés sur les critères existants, et ont constaté que la nouvelle méthode surpassait toutes les autres méthodes d'expansion de la fenêtre contextuelle.
Premièrement, les chercheurs ont évalué les performances du modèle lorsque la fenêtre contextuelle était augmentée. Le tableau 1 résume les résultats expérimentaux.