Le lancement de ChatGPT en novembre 2022 a ouvert les yeux de divers acteurs de l'industrie sur le grand modèle de langue AI. Cette dynamique frénétique a imprégné l'espace Crypto, et cet article vise à présenter le développement de l'IA, son état actuel et l'industrie qui a émergé de la combinaison IA+Crypto.
L'apprentissage automatique (ML) est une technologie dotée de capacités d'apprentissage empirique, qui apprend à discriminer les animaux, la traduction de langues et d'autres tâches spécifiques en apprenant à partir de grands ensembles de données. L'apprentissage automatique appartient à la manière la plus pratique de réaliser l'intelligence artificielle à l'heure actuelle, selon que les données apprises sont étiquetées et les caractéristiques peuvent être divisées en apprentissage supervisé et non supervisé.
Il existe de nombreux types de modèles qui peuvent réaliser l'apprentissage supervisé, y compris des modèles basés sur des arbres, des modèles graphiques et les réseaux neuronaux récemment apparus. Avec le développement rapide de la puissance de calcul et des données, l'apprentissage profond a été davantage développé sur la base de l'architecture des réseaux neuronaux. Les architectures actuelles d'apprentissage profond incluent couramment, mais sans s'y limiter, les CNN, les RNN et les mécanismes d'attention.
Classification de l'apprentissage machine, source : HashKey Capital
Différents réseaux d’apprentissage profond ont l’architecture de base de la couche d’entrée, de la couche cachée et de la couche de sortie, la couche d’entrée est généralement du texte, de la vidéo, de l’audio et d’autres données après avoir été traitées « tokenize / embedding ». La couche masquée a une conception différente (forme du modèle) en fonction du jeu de données et de l’objectif de la tâche, comme indiqué dans le tableau.
Types de réseaux neuronaux, Source: Organisé par HashKey Capital
30 ans de développement de réseaux neuronaux, source: organisé par HashKey Capital
La formation des réseaux neuronaux a d'abord été initiée au milieu des années 1980 lorsque Jordan a formé un réseau neuronal pour apprendre des motifs séquentiels dans son article de 1986Ordre sériel : une approche de traitement distribué parallèleLe réseau minuscule ne comportait que quelques neurones.
Dans les années 1990, Jeffrey Ehrman a étendu le réseau neuronal à un réseau de 50 neurones avec la découverte que le réseau regroupe spatialement les mots en fonction de leur signification. Par exemple, il a séparé les noms inanimés et animés, et au sein de ces deux catégories, les objets animés ont été subdivisés en catégories humaines et non humaines, et les objets inanimés ont été catégorisés comme étant cassables et comestibles. Cela indique que le réseau a la capacité d'apprendre des explications hiérarchiques.
Il a en outre observé que les mots peuvent être représentés comme des points dans un espace de grande dimension, puis qu'une séquence de mots ou de phrases peut être vue comme un chemin. Cette percée majeure permet de numériser, de vectoriser et de traiter les ensembles de données textuelles par des ordinateurs.
Source: http://3b1b.co/neural-networks
En 2011, les chercheurs de Confluence ont formé des réseaux plus importants impliquant des milliers de neurones et des millions de connexions, et un goulot d'étranglement a été trouvé dans l'étude de la capacité du réseau à maintenir un contexte cohérent sur de longues séquences.
En 2017, OpenAI a développé le travail de Kathy en s'entraînant sur 82 millions d'avis Amazon dans lesquels des neurones émotionnels ont été découverts. De tels neurones ont parfaitement catégorisé les émotions du texte.
Source: Apprendre à générer des critiques et découvrir le sentiment
En ce qui concerne les limitations de la taille du contexte, ce document de 2017 intitulé Attention Is All You Need présente une solution. Le document crée un réseau de couches dynamiques qui adapte les poids de connexion en fonction du contexte du réseau. Il fonctionne en permettant aux mots de l'entrée de voir, de comparer d'autres mots et de trouver les plus pertinents. Plus ces mots sont proches conceptuellement, plus ils sont proches dans l'espace et peuvent avoir des poids de connexion plus élevés. Cependant, le document s'est uniquement concentré sur le problème de traduction.
Ainsi, les chercheurs d'OpenAI ont essayé une architecture de transformateur plus puissante et ont lancé GPT-3 en 2020, ce qui a attiré l'attention généralisée des industries du monde entier, cette fois avec le réseau atteignant 175 milliards de paramètres, 96 couches et une fenêtre contextuelle de 1 000 mots.
Prenez l'image numérique de 28x28 pixels suivante comme exemple, les neurones correspondent à chaque pixel de l'image d'entrée 28x28, totalisant 784 neurones, les nombres dans les neurones sont les valeurs d'activation, qui vont de 0 à 1.
image numérique de 28x28 pixels, Source: http://3b1b.co/neural-networks
Ces 784 neurones forment la couche d'entrée du réseau. La couche finale est la couche de sortie, qui contient dix neurones représentant les chiffres 0–9, encore avec des valeurs d'activation allant de 0–1. La couche intermédiaire est la couche cachée, où la valeur d'activation de la couche précédente détermine la valeur d'activation de la couche suivante pendant le fonctionnement du réseau neuronal.
La profondeur de l'apprentissage profond réside dans le fait que le modèle apprend de nombreuses «couches» de transformations, chacune avec une représentation différente. Comme le montre la figure ci-dessous, par exemple, dans 9, différentes couches peuvent reconnaître différentes caractéristiques. Plus la couche d'entrée est proche du niveau de détail des données, plus la couche de sortie est proche des concepts plus spécifiques qui peuvent être utilisés pour les différencier.
Source: http://3b1b.co/neural-networks
À mesure que le modèle devient plus grand, les couches cachées au milieu impliquent des centaines de milliards de poids par couche, et c'est ces poids et biais qui déterminent vraiment ce que le réseau fait réellement. Le processus d'apprentissage automatique est le processus de trouver les bons paramètres, qui sont les poids et les biais.
L’architecture de transformateur utilisée dans GPT, un grand modèle de langage, comporte une couche cachée intermédiaire composée de 96 couches de modules décodeurs, dont GPT1, GPT2 et GPT3 ont respectivement 12, 48 et 96 couches. Le décodeur, à son tour, contient des composants de réseau neuronal d’attention et de rétroaction directe.
Le processus de calcul ou d'apprentissage implique de définir une fonction de coût (ou fonction de perte) qui somme les carrés des différences entre les prédictions de sortie calculées du réseau et les valeurs réelles, et lorsque la somme est faible, le modèle se comporte dans des limites acceptables.
La formation commence en paramétrant le réseau de manière aléatoire et en finalisant les paramètres du modèle du réseau en trouvant le paramètre qui minimise la fonction de coût. La manière de faire converger la fonction de coût est par la descente de gradient, par laquelle le degré d'impact de chaque changement de paramètre sur le coût/perte est examiné, puis les paramètres sont ajustés en fonction de ce degré d'impact.
Le processus de calcul du gradient des paramètres introduit la propagation arrière ou la rétropropagation, qui parcourt le réseau de la couche de sortie à la couche d'entrée dans l'ordre inverse selon la règle de la chaîne. L'algorithme nécessite également le stockage de toutes les variables intermédiaires (dérivées partielles) nécessaires pour calculer le gradient.
Il existe trois principaux facteurs qui affectent les performances des grands modèles de langage AI lors de leur entraînement, à savoir le nombre de paramètres du modèle, la taille de l'ensemble de données et la quantité de calcul.
Source : rapport OpenAI, Lois d'échelle pour les modèles de langage neuronaux
Cela est cohérent avec le développement des ensembles de données et des ordinateurs (puissance de calcul) dans la réalité, mais on peut également constater dans le tableau ci-dessous que la puissance de calcul croît plus rapidement que les données disponibles, tandis que la mémoire est la plus lente à se développer.
Le développement des ensembles de données, de la mémoire et de la puissance de calcul, Source: https://github.com/d2l-ai
Face à un grand modèle, le surajustement a tendance à se produire lorsque les données d'entraînement sont trop petites, et en général, l'exactitude du modèle plus complexe s'améliore à mesure que la quantité de données augmente. En ce qui concerne les besoins en données pour un grand modèle, cela peut être décidé en fonction de la règle des 10, qui suggère que la quantité de données doit être 10 fois le paramètre, mais certains algorithmes d'apprentissage profond appliquent un ratio de 1 :1.
L'apprentissage supervisé nécessite l'utilisation de jeux de données étiquetés + caractérisés pour parvenir à des résultats valides.
Source : Jeu de données de catégorisation de vêtements Fashion-MNIST
Malgré l'augmentation rapide des données au cours des dix ou vingt dernières années et des ensembles de données open source actuellement disponibles, y compris Kaggle, Azure, AWS, Google database, etc., des quantités limitées, rares et coûteuses de données deviennent progressivement un obstacle au développement de l'IA en raison des problèmes liés à la confidentialité, à l'augmentation des paramètres du modèle et à la reproductibilité des données. Différentes solutions de données sont proposées dans le but d'atténuer ce problème.
Les techniques d'augmentation de données peuvent être une solution efficace en fournissant des données insuffisantes au modèle sans acquérir de nouveaux échantillons, telles que la mise à l'échelle, la rotation, la réflexion, le recadrage, la traduction, l'ajout de bruit gaussien, le mélange, etc.
Les données synthétiques sont une autre option. Les données synthétiques sont des données qui peuvent être générées artificiellement par simulation informatique ou des algorithmes avec ou sans un ensemble de données de référence préalable. En ce qui concerne le développement d'outils pour générer des données synthétiques, Ian J. Goodfellow a inventé le Réseau Antagoniste Génératif (GAN), qui est une architecture d'apprentissage profond.
Il entraîne deux réseaux neuronaux pour rivaliser, ce qui peut générer de nouvelles données plus réalistes à partir d'un ensemble de données d'entraînement donné. L'architecture prend en charge la génération d'images, le remplissage d'informations manquantes, la génération de données d'entraînement pour d'autres modèles, la génération de modèles 3D basés sur des données 2D, et plus encore.
Il est encore tôt dans le développement du domaine, la plupart des entreprises existantes travaillant sur des données synthétiques ayant été fondées en 2021 ou 2022, et quelques-unes en 2023.
L'état du financement des entreprises de données synthétiques. Source : https://frontline.vc/blog/synthetic-data/
Le processus de formation de l'IA implique un grand nombre d'opérations matricielles, de l'intégration de mots, de la matrice transformateur QKV, en passant par les opérations softmax, et ainsi de suite à travers les opérations matricielles, l'ensemble des paramètres du modèle est également porté dans la matrice.
exemple de base de données vectorielle, Source : https://x.com/ProfTomYeh/status/1795076707386360227
Les grands modèles entraînent une demande massive de matériel informatique, qui est principalement catégorisée en formation et en inférence.
La préformation et le peaufinage peuvent être davantage divisés sous l'entraînement. Comme mentionné précédemment, la construction d'un modèle de réseau nécessite d'abord d'initialiser les paramètres de manière aléatoire, puis d'entraîner le réseau et d'ajuster continuellement les paramètres jusqu'à ce que la perte du réseau atteigne une plage acceptable. La différence entre la préformation et le peaufinage est que
la préformation commence avec chaque couche de paramètres à partir d'une initialisation aléatoire, tandis que certaines couches de peaufinage peuvent directement utiliser les paramètres du modèle précédemment entraîné comme paramètres d'initialisation pour cette tâche (gel des paramètres des couches précédentes) et agir sur un ensemble de données spécifique.
Source : https://d2l.ai/chapter_computer-vision/fine-tuning.html
La préformation et le peaufinage impliquent tous deux des changements de paramètres de modèle, ce qui aboutit finalement à une optimisation du modèle ou des paramètres, tandis que l'inférence est le calcul de l'inférence en chargeant un modèle après les entrées de l'utilisateur et en obtenant finalement des retours et des résultats de sortie.
La préformation, l'adaptation fine et l'inférence sont classées du plus grand au plus petit en termes de leurs exigences informatiques. Le tableau suivant compare les exigences en matière de matériel informatique pour la formation et l'inférence. Les exigences en matière de matériel informatique des deux diffèrent considérablement en termes de puissance de calcul, de mémoire et de communication/bande passante en raison des différences dans le processus de calcul et les exigences de précision, et en même temps, il y a un Trilemme Impossible en termes de puissance de calcul, de mémoire et de communication/bande passante.
Les mesures statistiques dans ce tableau sont basées sur un seul modèle traitant un seul jeton, un seul paramètre. \ FLOPs: opérations en virgule flottante par seconde, le nombre de calculs matriciels. \
*DP, TP, PP: data parallel, tensor parallel, pipeline parallel.
Comparaison du matériel informatique entre l'entraînement et l'inférence, Source: Organisé par HashKey Capital
Le processus de formation d'un réseau neuronal nécessite d'alterner entre la propagation avant et arrière, en utilisant le gradient donné par la propagation arrière pour mettre à jour les paramètres du modèle. L'inférence, en revanche, ne nécessite que la propagation avant. Cette différence devient un facteur d'influence qui différencie principalement les besoins en ressources matérielles informatiques pour la formation et l'inférence.
En termes de puissance de calcul, comme le montre le tableau, il existe une relation multiplicative simple entre le nombre de paramètres du modèle et la consommation de puissance de calcul, l'apprentissage nécessitant 6 à 8 opérations en virgule flottante et l'inférence nécessitant 2. Cela est dû à la rétropropagation impliquée dans l'apprentissage, qui nécessite deux fois plus de puissance de calcul que la propagation avant, et donc la consommation de puissance de calcul de l'apprentissage est beaucoup plus élevée que celle de l'inférence.
En termes de mémoire, la rétropropagation utilisée pour l'entraînement réutilise les valeurs intermédiaires stockées dans la propagation directe afin d'éviter les calculs répétés. Par conséquent, le processus d'entraînement doit conserver les valeurs intermédiaires jusqu'à ce que la rétropropagation soit terminée. La consommation de mémoire résultante pendant l'entraînement contient principalement les paramètres du modèle, les valeurs d'activation intermédiaires générées lors du calcul direct, les gradients générés par le calcul de la rétropropagation, et les états de l'optimiseur. La phase d'inférence ne nécessite pas de rétropropagation, ni d'état d'optimiseur et de gradient, etc., et sa consommation de mémoire est beaucoup plus petite que celle de l'entraînement.
En termes de communication/bande passante, afin d'améliorer les performances de l'entraînement de l'IA, l'entraînement de modèles de premier plan utilise généralement trois stratégies parallèles : parallèle de données, parallèle de tenseur et parallèle de pipeline.
Source: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Pour ces trois stratégies, il est projeté que la fréquence de communication TP est la plus grande, le volume de communication est le plus élevé, et est lié au nombre de jetons, à la largeur du modèle, et au nombre de couches. Le volume et la fréquence de communication de PP sont plus petits que ceux de TP, et sont liés au nombre de jetons et à la largeur du modèle. Le volume et la fréquence de communication de DP sont les plus petits et sont indépendants des jetons d'entrée.
Le goulot d'étranglement des ressources matérielles informatiques dans les grands modèles est principalement limité par la puissance de calcul, la bande passante/communication et la mémoire, et il y a des contrôles et des équilibres entre les trois, ce qui entraîne le problème du Trilemme Impossible. Par exemple, en raison des goulots d'étranglement de la communication, les performances du cluster ne peuvent pas être améliorées simplement en optimisant la puissance d'un seul ordinateur.
Par conséquent, bien que des architectures parallèles soient utilisées pour accélérer les performances des clusters, la plupart des architectures parallèles sacrifient en réalité la communication ou le stockage au profit de la puissance de calcul.
Sacrifier la communication et le stockage pour la puissance de calcul :
Dans PP, si un GPU est assigné à chaque couche des transformateurs, malgré l'augmentation de la puissance de calcul en unités de temps, les besoins de communication entre les couches augmentent également, ce qui entraîne une augmentation du volume de données et de la latence. De plus, l'exigence de stockage d'état intermédiaire pour la propagation avant augmente extrêmement rapidement.
Sacrifier la communication pour la puissance de calcul :
Dans TP, chaque transformateur est désassemblé pour un calcul parallèle. Puisque le transformateur se compose de deux composants (tête d'attention et réseau feed-forward), la tâche peut être divisée au sein de la couche pour soit la tête d'attention, soit le réseau neuronal feed-forward. Cette approche TP peut atténuer le problème de trop de hiérarchie PP en raison de l'incapacité des GPU à adapter le modèle. Cependant, cette approche présente toujours une surcharge de communication importante.
Dans cet article, nous croyons qu'actuellement, il existe les principales catégories d'IA suivantes dans le domaine de la Crypto :
Source : Organisé par HashKey Capital
Comme mentionné précédemment, les trois composantes les plus critiques de l'IA sont les données, les modèles et la puissance de calcul, qui servent d'infrastructure pour renforcer l'IA crypto.
Leur combinaison forme en fait un réseau informatique, avec un grand nombre de logiciels intermédiaires apparaissant dans le processus de calcul afin d'être efficace et plus en phase avec l'esprit Crypto. En aval se trouvent des Agents basés sur ces résultats vérifiables, qui peuvent ensuite remplir différents rôles pour différents publics d'utilisateurs.
Un autre organigramme peut être utilisé pour exprimer l'écologie de base de l'IA crypto comme suit :
Diagramme écologique, source: organisé par HashKey Capital
Bien sûr, des mécanismes tokenomiques sont nécessaires dans l'espace Crypto pour inciter à la coordination de la participation de différents acteurs.
Pour les ensembles de données, on peut choisir entre des sources de données publiques ou ses propres sources de données privées spécifiques.
Source de données :
Plateforme de données synthétiques :
Autres :
Plateforme de services d'étiquetage de données, en confiant la tâche d'étiquetage à différents travailleurs, ces derniers peuvent recevoir une incitation en jetons correspondante après avoir rempli la tâche telle que Cropo, Public AI, etc. Cependant, le problème actuel est que plus de personnes effectuent l'étiquetage des données que de données disponibles, tandis que les entreprises d'IA disposent de fournisseurs stables pour leurs besoins en données étiquetées, en raison de la présence persistante de ces derniers qui rend leur volonté de passer à des plates-formes décentralisées faible. Ces plates-formes ne pourraient peut-être obtenir que l'allocation de la partie restante de la commande auprès des fournisseurs d'étiquetage de données.
Les réseaux informatiques généralisés, qui font référence à des réseaux qui agrègent des ressources telles que des GPU et des CPU pour pouvoir fournir des services informatiques généralisés, ce qui signifie aucune distinction entre l'entraînement et l'inférence.
Dans l'espace Crypto, Gensyn, investi par a16z, propose un réseau informatique d'entraînement décentralisé.
Le processus est que après qu'un utilisateur soumet une tâche de formation requise, la plateforme l'analyse, évalue la puissance de calcul requise ainsi que la divise en un nombre minimal de travaux de ML, à quel moment le validateur saisit périodiquement la tâche analysée pour générer des seuils pour la comparaison des preuves d'apprentissage en aval.
Une fois que la tâche entre en phase d'entraînement, elle est exécutée par le Solveur, qui stocke périodiquement les poids du modèle et les index de réponse à partir de l'ensemble de données d'entraînement, génère également les preuves d'apprentissage, et le vérificateur effectue également le travail de calcul en relançant certaines des preuves pour effectuer des calculs de distance pour vérifier qu'ils correspondent aux preuves. Les lanceurs d'alerte effectuent une arbitrage basée sur un programme de défi précis basé sur un graphe pour vérifier si le travail de validation a été effectué correctement.
L'ajustement fin est plus facile et moins coûteux à mettre en œuvre que de pré-entraîner directement un grand modèle, simplement en affinant le modèle pré-entraîné avec un ensemble de données spécifique, et en adaptant le modèle à une tâche spécifique tout en préservant le modèle original.
Hugging Face peut être accédé en tant que fournisseur de ressources de modèles de langage pré-entraînés sur la plateforme distribuée, l'utilisateur sélectionne le modèle à affiner en fonction des besoins de la tâche, puis utilise les GPU et autres ressources fournies par le réseau informatique pour l'affinage de la tâche, qui doit être basé sur la complexité de la tâche pour déterminer la taille de l'ensemble de données, la complexité du modèle, et pour déterminer ensuite le besoin d'un niveau de ressources plus élevé tel que l'A100.
En plus de Gensyn, une plateforme qui peut prendre en charge la préformation, la plupart des plates-formes informatiques peuvent également prendre en charge le fine-tuning.
Comparé à l'entraînement (pré-entraînement et ajustement fin), qui nécessite un réglage des paramètres du modèle, le processus informatique d'inférence ne comporte que la propagation avant et nécessite moins de puissance de calcul. La plupart des réseaux informatiques décentralisés se concentrent actuellement sur les services d'inférence.
Lorsque l’inférence est effectuée, cette étape est déjà l’étape de l’utilisation du modèle, puis le middleware peut être introduit au bon moment :
Contrat intelligent sur chaîne pour récupérer les résultats des calculs d'IA hors chaîne :
Une autre couche de confidentialité peut être ajoutée au réseau informatique, qui inclut principalement la confidentialité des données et la confidentialité du modèle, où la confidentialité des données est bien plus importante que la confidentialité du modèle.
La plupart des réseaux informatiques construisent différents systèmes de validation pour s'assurer que le système fonctionne de manière précise, tandis que le lien est une partie qui n'a pas encore été introduite dans le domaine de l'IA traditionnelle.
Le rôle principal de la preuve ZK est le suivant 2 points :
Modulus Labs a montré qu'il est possible de créer des preuves pour des modèles de 18 millions de paramètres en 60 à 70 secondes en utilisant le système de preuve Plonky de Polygon. Pour les petits modèles, il est possible d'utiliser ZKML à ce stade, mais le coût reste significatif :
Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
Étant donné les limitations de ZKML décrites ci-dessus, l'OPML est une alternative. Bien que plus faible que le ZKML en termes de sécurité, sa consommation de mémoire et le temps de calcul de la preuve sont nettement meilleurs que ceux du ZKML. Selon le rapport ORA, il est démontré que, pour le même modèle 7B-LLaMA (avec une taille de modèle d'environ 26 Go), l'OPML peut être traité avec 32 Go de mémoire, alors que la consommation de mémoire des circuits dans le zkML peut être de l'ordre des téraoctets, voire des pétaoctets.
L'environnement d'exécution sécurisé fournit une sécurité au niveau matériel et peut être une alternative à ZKML et OPML. La preuve TEE est générée à la suite d'un calcul interne au sein du TEE et son coût de calcul est bien inférieur à celui de la preuve zk. De plus, la taille de la preuve du TEE est généralement une constante fixe (longueur de la signature) et présente donc l'avantage d'une empreinte plus petite et d'un coût de validation sur chaîne inférieur.
En plus de la vérification, TEE présente l'avantage de maintenir les données sensibles isolées, garantissant que les processus ou calculs externes ne peuvent pas accéder ou altérer les données qui s'y trouvent.
Les projets qui utilisent TEE incluent:
Source: https://arxiv.org/pdf/2401.17555,Protocole Marlin
De plus, le protocole ORA a développé opp/ai (Intelligence artificielle optimiste préservant la vie privée sur la blockchain) en plus de sa propre validation ZKML et OPML, et n'est pas inclus dans le tableau de comparaison ci-dessus.
L'agent a la capacité d'analyser les informations entrantes, d'évaluer les conditions environnementales actuelles et de prendre des décisions. La composition de l'agent est illustrée dans la figure suivante, dans laquelle le LLM est le composant central, il est également nécessaire de fournir l'invite appropriée au LLM, et à travers la mémoire pour stocker des données à court terme et des données historiques à long terme (données externes).
Puisque les tâches complexes ne peuvent pas être accomplies en une seule fois, elles doivent être divisées en tâches plus petites par Plan, en plus de cela, l'Agent peut également appeler des APIs externes pour obtenir des informations supplémentaires, y compris des informations actuelles, des capacités d'exécution de code, l'accès à des sources d'informations propriétaires, et ainsi de suite.
Source : Une enquête sur les agents autonomes basés sur de grands modèles de langage
La capacité de prise de décision des Agents n'a pas connu de percée certaine avant l'émergence du Large Language Model LLM ces dernières années. Un rapport a compilé le nombre de documents publiés sur les Agents de 2021 à 2023, comme le montre la figure ci-dessous, en réalité, il n'y a qu'une douzaine de documents de recherche en 2021, mais des centaines de documents ont été publiés sur eux en 2023. Le document a catégorisé les Agents en 7 catégories.
Source: Une enquête sur les agents autonomes basés sur de grands modèles linguistiques
En web3, les scénarios dans lesquels les Agents existent sont encore limités par rapport au monde web2, et comprennent actuellement le dédouanement automatisé, la construction de composants de code (écriture de contrats intelligents, écriture de circuits zk), le contrôle des risques en temps réel, et l'exécution de stratégies telles que l'arbitrage et le farming de rendement.
Sur la base de différents agents peuvent être combinés/abstraits/créés une application spécifique, en même temps, il existe des plates-formes de coordination disponibles pour que les utilisateurs puissent choisir le type d’agents à utiliser pour construire un type d’application spécifique. Mais la plupart d’entre eux sont limités au développement d’Agents.
Certains développeurs utiliseront une certaine IA pour aider leurs plateformes à être plus intelligentes, par exemple, dans les projets de sécurité, l'apprentissage automatique est utilisé pour distinguer les vulnérabilités des attaques; les protocoles DeFi utilisent l'IA pour construire des outils de surveillance en temps réel; et les plateformes d'analyse de données utilisent également l'IA pour aider à nettoyer et analyser les données.
Dans cet article, nous aimerions mettre en avant les 3 points suivants :
Dans le domaine de la cryptographie, un certain nombre de réseaux informatiques émergent inévitablement pour donner aux utilisateurs l’impression que le GPU est une IA, mais comme analysé dans la section précédente, il existe un trilemme impossible de réseaux informatiques, c’est-à-dire la puissance de calcul, la bande passante/communication et la mémoire, ainsi que trois types de stratégies parallèles utilisées dans l’entraînement de modèles, telles que le parallèle de données, le parallèle tensoriel, et le parallèle des pipelines, tous pointent vers les freins et contrepoids qui sont imposés à la mise en place du cadre du réseau informatique.
La raison pour laquelle le même modèle et les mêmes données ne donnent pas nécessairement le même résultat est l'utilisation du calcul en virgule flottante. Cette différence de calcul a également un impact sur la construction du réseau informatique.
Les agents d'IA n'ont commencé à montrer plus d'utilité que récemment, et nous nous attendons à ce que davantage d'agents apparaissent sur le marché. Mais comment les agents fonctionnent dans la crypto ou comment trouver les bons incitations en jetons reste un défi.
本文转载自[moyen],原文标题“AI into Crypto”,著作权归属原作者[HashKey Capital ],如对转载有异议,请联系Équipe Gate LearnL'équipe traitera rapidement selon les procédures appropriées.
Avis de non-responsabilité: Les opinions exprimées dans cet article ne représentent que l'opinion personnelle de l'auteur et ne constituent pas un conseil en investissement.
文章其他语言版本由Gate Learn团队翻译, 在未提及Gate.ioDans le cas présent, il est interdit de copier, diffuser ou plagier des articles traduits.
Le lancement de ChatGPT en novembre 2022 a ouvert les yeux de divers acteurs de l'industrie sur le grand modèle de langue AI. Cette dynamique frénétique a imprégné l'espace Crypto, et cet article vise à présenter le développement de l'IA, son état actuel et l'industrie qui a émergé de la combinaison IA+Crypto.
L'apprentissage automatique (ML) est une technologie dotée de capacités d'apprentissage empirique, qui apprend à discriminer les animaux, la traduction de langues et d'autres tâches spécifiques en apprenant à partir de grands ensembles de données. L'apprentissage automatique appartient à la manière la plus pratique de réaliser l'intelligence artificielle à l'heure actuelle, selon que les données apprises sont étiquetées et les caractéristiques peuvent être divisées en apprentissage supervisé et non supervisé.
Il existe de nombreux types de modèles qui peuvent réaliser l'apprentissage supervisé, y compris des modèles basés sur des arbres, des modèles graphiques et les réseaux neuronaux récemment apparus. Avec le développement rapide de la puissance de calcul et des données, l'apprentissage profond a été davantage développé sur la base de l'architecture des réseaux neuronaux. Les architectures actuelles d'apprentissage profond incluent couramment, mais sans s'y limiter, les CNN, les RNN et les mécanismes d'attention.
Classification de l'apprentissage machine, source : HashKey Capital
Différents réseaux d’apprentissage profond ont l’architecture de base de la couche d’entrée, de la couche cachée et de la couche de sortie, la couche d’entrée est généralement du texte, de la vidéo, de l’audio et d’autres données après avoir été traitées « tokenize / embedding ». La couche masquée a une conception différente (forme du modèle) en fonction du jeu de données et de l’objectif de la tâche, comme indiqué dans le tableau.
Types de réseaux neuronaux, Source: Organisé par HashKey Capital
30 ans de développement de réseaux neuronaux, source: organisé par HashKey Capital
La formation des réseaux neuronaux a d'abord été initiée au milieu des années 1980 lorsque Jordan a formé un réseau neuronal pour apprendre des motifs séquentiels dans son article de 1986Ordre sériel : une approche de traitement distribué parallèleLe réseau minuscule ne comportait que quelques neurones.
Dans les années 1990, Jeffrey Ehrman a étendu le réseau neuronal à un réseau de 50 neurones avec la découverte que le réseau regroupe spatialement les mots en fonction de leur signification. Par exemple, il a séparé les noms inanimés et animés, et au sein de ces deux catégories, les objets animés ont été subdivisés en catégories humaines et non humaines, et les objets inanimés ont été catégorisés comme étant cassables et comestibles. Cela indique que le réseau a la capacité d'apprendre des explications hiérarchiques.
Il a en outre observé que les mots peuvent être représentés comme des points dans un espace de grande dimension, puis qu'une séquence de mots ou de phrases peut être vue comme un chemin. Cette percée majeure permet de numériser, de vectoriser et de traiter les ensembles de données textuelles par des ordinateurs.
Source: http://3b1b.co/neural-networks
En 2011, les chercheurs de Confluence ont formé des réseaux plus importants impliquant des milliers de neurones et des millions de connexions, et un goulot d'étranglement a été trouvé dans l'étude de la capacité du réseau à maintenir un contexte cohérent sur de longues séquences.
En 2017, OpenAI a développé le travail de Kathy en s'entraînant sur 82 millions d'avis Amazon dans lesquels des neurones émotionnels ont été découverts. De tels neurones ont parfaitement catégorisé les émotions du texte.
Source: Apprendre à générer des critiques et découvrir le sentiment
En ce qui concerne les limitations de la taille du contexte, ce document de 2017 intitulé Attention Is All You Need présente une solution. Le document crée un réseau de couches dynamiques qui adapte les poids de connexion en fonction du contexte du réseau. Il fonctionne en permettant aux mots de l'entrée de voir, de comparer d'autres mots et de trouver les plus pertinents. Plus ces mots sont proches conceptuellement, plus ils sont proches dans l'espace et peuvent avoir des poids de connexion plus élevés. Cependant, le document s'est uniquement concentré sur le problème de traduction.
Ainsi, les chercheurs d'OpenAI ont essayé une architecture de transformateur plus puissante et ont lancé GPT-3 en 2020, ce qui a attiré l'attention généralisée des industries du monde entier, cette fois avec le réseau atteignant 175 milliards de paramètres, 96 couches et une fenêtre contextuelle de 1 000 mots.
Prenez l'image numérique de 28x28 pixels suivante comme exemple, les neurones correspondent à chaque pixel de l'image d'entrée 28x28, totalisant 784 neurones, les nombres dans les neurones sont les valeurs d'activation, qui vont de 0 à 1.
image numérique de 28x28 pixels, Source: http://3b1b.co/neural-networks
Ces 784 neurones forment la couche d'entrée du réseau. La couche finale est la couche de sortie, qui contient dix neurones représentant les chiffres 0–9, encore avec des valeurs d'activation allant de 0–1. La couche intermédiaire est la couche cachée, où la valeur d'activation de la couche précédente détermine la valeur d'activation de la couche suivante pendant le fonctionnement du réseau neuronal.
La profondeur de l'apprentissage profond réside dans le fait que le modèle apprend de nombreuses «couches» de transformations, chacune avec une représentation différente. Comme le montre la figure ci-dessous, par exemple, dans 9, différentes couches peuvent reconnaître différentes caractéristiques. Plus la couche d'entrée est proche du niveau de détail des données, plus la couche de sortie est proche des concepts plus spécifiques qui peuvent être utilisés pour les différencier.
Source: http://3b1b.co/neural-networks
À mesure que le modèle devient plus grand, les couches cachées au milieu impliquent des centaines de milliards de poids par couche, et c'est ces poids et biais qui déterminent vraiment ce que le réseau fait réellement. Le processus d'apprentissage automatique est le processus de trouver les bons paramètres, qui sont les poids et les biais.
L’architecture de transformateur utilisée dans GPT, un grand modèle de langage, comporte une couche cachée intermédiaire composée de 96 couches de modules décodeurs, dont GPT1, GPT2 et GPT3 ont respectivement 12, 48 et 96 couches. Le décodeur, à son tour, contient des composants de réseau neuronal d’attention et de rétroaction directe.
Le processus de calcul ou d'apprentissage implique de définir une fonction de coût (ou fonction de perte) qui somme les carrés des différences entre les prédictions de sortie calculées du réseau et les valeurs réelles, et lorsque la somme est faible, le modèle se comporte dans des limites acceptables.
La formation commence en paramétrant le réseau de manière aléatoire et en finalisant les paramètres du modèle du réseau en trouvant le paramètre qui minimise la fonction de coût. La manière de faire converger la fonction de coût est par la descente de gradient, par laquelle le degré d'impact de chaque changement de paramètre sur le coût/perte est examiné, puis les paramètres sont ajustés en fonction de ce degré d'impact.
Le processus de calcul du gradient des paramètres introduit la propagation arrière ou la rétropropagation, qui parcourt le réseau de la couche de sortie à la couche d'entrée dans l'ordre inverse selon la règle de la chaîne. L'algorithme nécessite également le stockage de toutes les variables intermédiaires (dérivées partielles) nécessaires pour calculer le gradient.
Il existe trois principaux facteurs qui affectent les performances des grands modèles de langage AI lors de leur entraînement, à savoir le nombre de paramètres du modèle, la taille de l'ensemble de données et la quantité de calcul.
Source : rapport OpenAI, Lois d'échelle pour les modèles de langage neuronaux
Cela est cohérent avec le développement des ensembles de données et des ordinateurs (puissance de calcul) dans la réalité, mais on peut également constater dans le tableau ci-dessous que la puissance de calcul croît plus rapidement que les données disponibles, tandis que la mémoire est la plus lente à se développer.
Le développement des ensembles de données, de la mémoire et de la puissance de calcul, Source: https://github.com/d2l-ai
Face à un grand modèle, le surajustement a tendance à se produire lorsque les données d'entraînement sont trop petites, et en général, l'exactitude du modèle plus complexe s'améliore à mesure que la quantité de données augmente. En ce qui concerne les besoins en données pour un grand modèle, cela peut être décidé en fonction de la règle des 10, qui suggère que la quantité de données doit être 10 fois le paramètre, mais certains algorithmes d'apprentissage profond appliquent un ratio de 1 :1.
L'apprentissage supervisé nécessite l'utilisation de jeux de données étiquetés + caractérisés pour parvenir à des résultats valides.
Source : Jeu de données de catégorisation de vêtements Fashion-MNIST
Malgré l'augmentation rapide des données au cours des dix ou vingt dernières années et des ensembles de données open source actuellement disponibles, y compris Kaggle, Azure, AWS, Google database, etc., des quantités limitées, rares et coûteuses de données deviennent progressivement un obstacle au développement de l'IA en raison des problèmes liés à la confidentialité, à l'augmentation des paramètres du modèle et à la reproductibilité des données. Différentes solutions de données sont proposées dans le but d'atténuer ce problème.
Les techniques d'augmentation de données peuvent être une solution efficace en fournissant des données insuffisantes au modèle sans acquérir de nouveaux échantillons, telles que la mise à l'échelle, la rotation, la réflexion, le recadrage, la traduction, l'ajout de bruit gaussien, le mélange, etc.
Les données synthétiques sont une autre option. Les données synthétiques sont des données qui peuvent être générées artificiellement par simulation informatique ou des algorithmes avec ou sans un ensemble de données de référence préalable. En ce qui concerne le développement d'outils pour générer des données synthétiques, Ian J. Goodfellow a inventé le Réseau Antagoniste Génératif (GAN), qui est une architecture d'apprentissage profond.
Il entraîne deux réseaux neuronaux pour rivaliser, ce qui peut générer de nouvelles données plus réalistes à partir d'un ensemble de données d'entraînement donné. L'architecture prend en charge la génération d'images, le remplissage d'informations manquantes, la génération de données d'entraînement pour d'autres modèles, la génération de modèles 3D basés sur des données 2D, et plus encore.
Il est encore tôt dans le développement du domaine, la plupart des entreprises existantes travaillant sur des données synthétiques ayant été fondées en 2021 ou 2022, et quelques-unes en 2023.
L'état du financement des entreprises de données synthétiques. Source : https://frontline.vc/blog/synthetic-data/
Le processus de formation de l'IA implique un grand nombre d'opérations matricielles, de l'intégration de mots, de la matrice transformateur QKV, en passant par les opérations softmax, et ainsi de suite à travers les opérations matricielles, l'ensemble des paramètres du modèle est également porté dans la matrice.
exemple de base de données vectorielle, Source : https://x.com/ProfTomYeh/status/1795076707386360227
Les grands modèles entraînent une demande massive de matériel informatique, qui est principalement catégorisée en formation et en inférence.
La préformation et le peaufinage peuvent être davantage divisés sous l'entraînement. Comme mentionné précédemment, la construction d'un modèle de réseau nécessite d'abord d'initialiser les paramètres de manière aléatoire, puis d'entraîner le réseau et d'ajuster continuellement les paramètres jusqu'à ce que la perte du réseau atteigne une plage acceptable. La différence entre la préformation et le peaufinage est que
la préformation commence avec chaque couche de paramètres à partir d'une initialisation aléatoire, tandis que certaines couches de peaufinage peuvent directement utiliser les paramètres du modèle précédemment entraîné comme paramètres d'initialisation pour cette tâche (gel des paramètres des couches précédentes) et agir sur un ensemble de données spécifique.
Source : https://d2l.ai/chapter_computer-vision/fine-tuning.html
La préformation et le peaufinage impliquent tous deux des changements de paramètres de modèle, ce qui aboutit finalement à une optimisation du modèle ou des paramètres, tandis que l'inférence est le calcul de l'inférence en chargeant un modèle après les entrées de l'utilisateur et en obtenant finalement des retours et des résultats de sortie.
La préformation, l'adaptation fine et l'inférence sont classées du plus grand au plus petit en termes de leurs exigences informatiques. Le tableau suivant compare les exigences en matière de matériel informatique pour la formation et l'inférence. Les exigences en matière de matériel informatique des deux diffèrent considérablement en termes de puissance de calcul, de mémoire et de communication/bande passante en raison des différences dans le processus de calcul et les exigences de précision, et en même temps, il y a un Trilemme Impossible en termes de puissance de calcul, de mémoire et de communication/bande passante.
Les mesures statistiques dans ce tableau sont basées sur un seul modèle traitant un seul jeton, un seul paramètre. \ FLOPs: opérations en virgule flottante par seconde, le nombre de calculs matriciels. \
*DP, TP, PP: data parallel, tensor parallel, pipeline parallel.
Comparaison du matériel informatique entre l'entraînement et l'inférence, Source: Organisé par HashKey Capital
Le processus de formation d'un réseau neuronal nécessite d'alterner entre la propagation avant et arrière, en utilisant le gradient donné par la propagation arrière pour mettre à jour les paramètres du modèle. L'inférence, en revanche, ne nécessite que la propagation avant. Cette différence devient un facteur d'influence qui différencie principalement les besoins en ressources matérielles informatiques pour la formation et l'inférence.
En termes de puissance de calcul, comme le montre le tableau, il existe une relation multiplicative simple entre le nombre de paramètres du modèle et la consommation de puissance de calcul, l'apprentissage nécessitant 6 à 8 opérations en virgule flottante et l'inférence nécessitant 2. Cela est dû à la rétropropagation impliquée dans l'apprentissage, qui nécessite deux fois plus de puissance de calcul que la propagation avant, et donc la consommation de puissance de calcul de l'apprentissage est beaucoup plus élevée que celle de l'inférence.
En termes de mémoire, la rétropropagation utilisée pour l'entraînement réutilise les valeurs intermédiaires stockées dans la propagation directe afin d'éviter les calculs répétés. Par conséquent, le processus d'entraînement doit conserver les valeurs intermédiaires jusqu'à ce que la rétropropagation soit terminée. La consommation de mémoire résultante pendant l'entraînement contient principalement les paramètres du modèle, les valeurs d'activation intermédiaires générées lors du calcul direct, les gradients générés par le calcul de la rétropropagation, et les états de l'optimiseur. La phase d'inférence ne nécessite pas de rétropropagation, ni d'état d'optimiseur et de gradient, etc., et sa consommation de mémoire est beaucoup plus petite que celle de l'entraînement.
En termes de communication/bande passante, afin d'améliorer les performances de l'entraînement de l'IA, l'entraînement de modèles de premier plan utilise généralement trois stratégies parallèles : parallèle de données, parallèle de tenseur et parallèle de pipeline.
Source: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Pour ces trois stratégies, il est projeté que la fréquence de communication TP est la plus grande, le volume de communication est le plus élevé, et est lié au nombre de jetons, à la largeur du modèle, et au nombre de couches. Le volume et la fréquence de communication de PP sont plus petits que ceux de TP, et sont liés au nombre de jetons et à la largeur du modèle. Le volume et la fréquence de communication de DP sont les plus petits et sont indépendants des jetons d'entrée.
Le goulot d'étranglement des ressources matérielles informatiques dans les grands modèles est principalement limité par la puissance de calcul, la bande passante/communication et la mémoire, et il y a des contrôles et des équilibres entre les trois, ce qui entraîne le problème du Trilemme Impossible. Par exemple, en raison des goulots d'étranglement de la communication, les performances du cluster ne peuvent pas être améliorées simplement en optimisant la puissance d'un seul ordinateur.
Par conséquent, bien que des architectures parallèles soient utilisées pour accélérer les performances des clusters, la plupart des architectures parallèles sacrifient en réalité la communication ou le stockage au profit de la puissance de calcul.
Sacrifier la communication et le stockage pour la puissance de calcul :
Dans PP, si un GPU est assigné à chaque couche des transformateurs, malgré l'augmentation de la puissance de calcul en unités de temps, les besoins de communication entre les couches augmentent également, ce qui entraîne une augmentation du volume de données et de la latence. De plus, l'exigence de stockage d'état intermédiaire pour la propagation avant augmente extrêmement rapidement.
Sacrifier la communication pour la puissance de calcul :
Dans TP, chaque transformateur est désassemblé pour un calcul parallèle. Puisque le transformateur se compose de deux composants (tête d'attention et réseau feed-forward), la tâche peut être divisée au sein de la couche pour soit la tête d'attention, soit le réseau neuronal feed-forward. Cette approche TP peut atténuer le problème de trop de hiérarchie PP en raison de l'incapacité des GPU à adapter le modèle. Cependant, cette approche présente toujours une surcharge de communication importante.
Dans cet article, nous croyons qu'actuellement, il existe les principales catégories d'IA suivantes dans le domaine de la Crypto :
Source : Organisé par HashKey Capital
Comme mentionné précédemment, les trois composantes les plus critiques de l'IA sont les données, les modèles et la puissance de calcul, qui servent d'infrastructure pour renforcer l'IA crypto.
Leur combinaison forme en fait un réseau informatique, avec un grand nombre de logiciels intermédiaires apparaissant dans le processus de calcul afin d'être efficace et plus en phase avec l'esprit Crypto. En aval se trouvent des Agents basés sur ces résultats vérifiables, qui peuvent ensuite remplir différents rôles pour différents publics d'utilisateurs.
Un autre organigramme peut être utilisé pour exprimer l'écologie de base de l'IA crypto comme suit :
Diagramme écologique, source: organisé par HashKey Capital
Bien sûr, des mécanismes tokenomiques sont nécessaires dans l'espace Crypto pour inciter à la coordination de la participation de différents acteurs.
Pour les ensembles de données, on peut choisir entre des sources de données publiques ou ses propres sources de données privées spécifiques.
Source de données :
Plateforme de données synthétiques :
Autres :
Plateforme de services d'étiquetage de données, en confiant la tâche d'étiquetage à différents travailleurs, ces derniers peuvent recevoir une incitation en jetons correspondante après avoir rempli la tâche telle que Cropo, Public AI, etc. Cependant, le problème actuel est que plus de personnes effectuent l'étiquetage des données que de données disponibles, tandis que les entreprises d'IA disposent de fournisseurs stables pour leurs besoins en données étiquetées, en raison de la présence persistante de ces derniers qui rend leur volonté de passer à des plates-formes décentralisées faible. Ces plates-formes ne pourraient peut-être obtenir que l'allocation de la partie restante de la commande auprès des fournisseurs d'étiquetage de données.
Les réseaux informatiques généralisés, qui font référence à des réseaux qui agrègent des ressources telles que des GPU et des CPU pour pouvoir fournir des services informatiques généralisés, ce qui signifie aucune distinction entre l'entraînement et l'inférence.
Dans l'espace Crypto, Gensyn, investi par a16z, propose un réseau informatique d'entraînement décentralisé.
Le processus est que après qu'un utilisateur soumet une tâche de formation requise, la plateforme l'analyse, évalue la puissance de calcul requise ainsi que la divise en un nombre minimal de travaux de ML, à quel moment le validateur saisit périodiquement la tâche analysée pour générer des seuils pour la comparaison des preuves d'apprentissage en aval.
Une fois que la tâche entre en phase d'entraînement, elle est exécutée par le Solveur, qui stocke périodiquement les poids du modèle et les index de réponse à partir de l'ensemble de données d'entraînement, génère également les preuves d'apprentissage, et le vérificateur effectue également le travail de calcul en relançant certaines des preuves pour effectuer des calculs de distance pour vérifier qu'ils correspondent aux preuves. Les lanceurs d'alerte effectuent une arbitrage basée sur un programme de défi précis basé sur un graphe pour vérifier si le travail de validation a été effectué correctement.
L'ajustement fin est plus facile et moins coûteux à mettre en œuvre que de pré-entraîner directement un grand modèle, simplement en affinant le modèle pré-entraîné avec un ensemble de données spécifique, et en adaptant le modèle à une tâche spécifique tout en préservant le modèle original.
Hugging Face peut être accédé en tant que fournisseur de ressources de modèles de langage pré-entraînés sur la plateforme distribuée, l'utilisateur sélectionne le modèle à affiner en fonction des besoins de la tâche, puis utilise les GPU et autres ressources fournies par le réseau informatique pour l'affinage de la tâche, qui doit être basé sur la complexité de la tâche pour déterminer la taille de l'ensemble de données, la complexité du modèle, et pour déterminer ensuite le besoin d'un niveau de ressources plus élevé tel que l'A100.
En plus de Gensyn, une plateforme qui peut prendre en charge la préformation, la plupart des plates-formes informatiques peuvent également prendre en charge le fine-tuning.
Comparé à l'entraînement (pré-entraînement et ajustement fin), qui nécessite un réglage des paramètres du modèle, le processus informatique d'inférence ne comporte que la propagation avant et nécessite moins de puissance de calcul. La plupart des réseaux informatiques décentralisés se concentrent actuellement sur les services d'inférence.
Lorsque l’inférence est effectuée, cette étape est déjà l’étape de l’utilisation du modèle, puis le middleware peut être introduit au bon moment :
Contrat intelligent sur chaîne pour récupérer les résultats des calculs d'IA hors chaîne :
Une autre couche de confidentialité peut être ajoutée au réseau informatique, qui inclut principalement la confidentialité des données et la confidentialité du modèle, où la confidentialité des données est bien plus importante que la confidentialité du modèle.
La plupart des réseaux informatiques construisent différents systèmes de validation pour s'assurer que le système fonctionne de manière précise, tandis que le lien est une partie qui n'a pas encore été introduite dans le domaine de l'IA traditionnelle.
Le rôle principal de la preuve ZK est le suivant 2 points :
Modulus Labs a montré qu'il est possible de créer des preuves pour des modèles de 18 millions de paramètres en 60 à 70 secondes en utilisant le système de preuve Plonky de Polygon. Pour les petits modèles, il est possible d'utiliser ZKML à ce stade, mais le coût reste significatif :
Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
Étant donné les limitations de ZKML décrites ci-dessus, l'OPML est une alternative. Bien que plus faible que le ZKML en termes de sécurité, sa consommation de mémoire et le temps de calcul de la preuve sont nettement meilleurs que ceux du ZKML. Selon le rapport ORA, il est démontré que, pour le même modèle 7B-LLaMA (avec une taille de modèle d'environ 26 Go), l'OPML peut être traité avec 32 Go de mémoire, alors que la consommation de mémoire des circuits dans le zkML peut être de l'ordre des téraoctets, voire des pétaoctets.
L'environnement d'exécution sécurisé fournit une sécurité au niveau matériel et peut être une alternative à ZKML et OPML. La preuve TEE est générée à la suite d'un calcul interne au sein du TEE et son coût de calcul est bien inférieur à celui de la preuve zk. De plus, la taille de la preuve du TEE est généralement une constante fixe (longueur de la signature) et présente donc l'avantage d'une empreinte plus petite et d'un coût de validation sur chaîne inférieur.
En plus de la vérification, TEE présente l'avantage de maintenir les données sensibles isolées, garantissant que les processus ou calculs externes ne peuvent pas accéder ou altérer les données qui s'y trouvent.
Les projets qui utilisent TEE incluent:
Source: https://arxiv.org/pdf/2401.17555,Protocole Marlin
De plus, le protocole ORA a développé opp/ai (Intelligence artificielle optimiste préservant la vie privée sur la blockchain) en plus de sa propre validation ZKML et OPML, et n'est pas inclus dans le tableau de comparaison ci-dessus.
L'agent a la capacité d'analyser les informations entrantes, d'évaluer les conditions environnementales actuelles et de prendre des décisions. La composition de l'agent est illustrée dans la figure suivante, dans laquelle le LLM est le composant central, il est également nécessaire de fournir l'invite appropriée au LLM, et à travers la mémoire pour stocker des données à court terme et des données historiques à long terme (données externes).
Puisque les tâches complexes ne peuvent pas être accomplies en une seule fois, elles doivent être divisées en tâches plus petites par Plan, en plus de cela, l'Agent peut également appeler des APIs externes pour obtenir des informations supplémentaires, y compris des informations actuelles, des capacités d'exécution de code, l'accès à des sources d'informations propriétaires, et ainsi de suite.
Source : Une enquête sur les agents autonomes basés sur de grands modèles de langage
La capacité de prise de décision des Agents n'a pas connu de percée certaine avant l'émergence du Large Language Model LLM ces dernières années. Un rapport a compilé le nombre de documents publiés sur les Agents de 2021 à 2023, comme le montre la figure ci-dessous, en réalité, il n'y a qu'une douzaine de documents de recherche en 2021, mais des centaines de documents ont été publiés sur eux en 2023. Le document a catégorisé les Agents en 7 catégories.
Source: Une enquête sur les agents autonomes basés sur de grands modèles linguistiques
En web3, les scénarios dans lesquels les Agents existent sont encore limités par rapport au monde web2, et comprennent actuellement le dédouanement automatisé, la construction de composants de code (écriture de contrats intelligents, écriture de circuits zk), le contrôle des risques en temps réel, et l'exécution de stratégies telles que l'arbitrage et le farming de rendement.
Sur la base de différents agents peuvent être combinés/abstraits/créés une application spécifique, en même temps, il existe des plates-formes de coordination disponibles pour que les utilisateurs puissent choisir le type d’agents à utiliser pour construire un type d’application spécifique. Mais la plupart d’entre eux sont limités au développement d’Agents.
Certains développeurs utiliseront une certaine IA pour aider leurs plateformes à être plus intelligentes, par exemple, dans les projets de sécurité, l'apprentissage automatique est utilisé pour distinguer les vulnérabilités des attaques; les protocoles DeFi utilisent l'IA pour construire des outils de surveillance en temps réel; et les plateformes d'analyse de données utilisent également l'IA pour aider à nettoyer et analyser les données.
Dans cet article, nous aimerions mettre en avant les 3 points suivants :
Dans le domaine de la cryptographie, un certain nombre de réseaux informatiques émergent inévitablement pour donner aux utilisateurs l’impression que le GPU est une IA, mais comme analysé dans la section précédente, il existe un trilemme impossible de réseaux informatiques, c’est-à-dire la puissance de calcul, la bande passante/communication et la mémoire, ainsi que trois types de stratégies parallèles utilisées dans l’entraînement de modèles, telles que le parallèle de données, le parallèle tensoriel, et le parallèle des pipelines, tous pointent vers les freins et contrepoids qui sont imposés à la mise en place du cadre du réseau informatique.
La raison pour laquelle le même modèle et les mêmes données ne donnent pas nécessairement le même résultat est l'utilisation du calcul en virgule flottante. Cette différence de calcul a également un impact sur la construction du réseau informatique.
Les agents d'IA n'ont commencé à montrer plus d'utilité que récemment, et nous nous attendons à ce que davantage d'agents apparaissent sur le marché. Mais comment les agents fonctionnent dans la crypto ou comment trouver les bons incitations en jetons reste un défi.
本文转载自[moyen],原文标题“AI into Crypto”,著作权归属原作者[HashKey Capital ],如对转载有异议,请联系Équipe Gate LearnL'équipe traitera rapidement selon les procédures appropriées.
Avis de non-responsabilité: Les opinions exprimées dans cet article ne représentent que l'opinion personnelle de l'auteur et ne constituent pas un conseil en investissement.
文章其他语言版本由Gate Learn团队翻译, 在未提及Gate.ioDans le cas présent, il est interdit de copier, diffuser ou plagier des articles traduits.