IOSG: De la Silicon Valley à l'Intelligence Artificielle, pile technologique d'entraînement et de raisonnement de l'IA.

2024-08-06 10:11:20

IOSG：从硅到智能，人工智能训练与推理技术栈

Le développement rapide de l’intelligence artificielle repose sur des infrastructures complexes. La pile technologique de l’IA est une architecture en couches composée de matériel et de logiciels, et elle est le pilier de la révolution actuelle de l’IA. Ici, nous analyserons en profondeur les principales couches de la pile technologique et expliquerons la contribution de chaque couche au développement et à la mise en œuvre de l’IA. Enfin, nous réfléchirons à l’importance de maîtriser ces connaissances de base, en particulier lors de l’évaluation des opportunités dans le domaine interdisciplinaire de la cryptomonnaie et de l’IA, telles que le projet DePIN (Décentralisation des infrastructures physiques), par exemple le réseau GPU.

IOSG：从硅到智能，人工智能训练与推理技术栈

1. Couche matérielle: Base en silicium

Au niveau le plus bas se trouve le matériel, qui fournit la puissance de calcul physique à l’intelligence artificielle.

CPU (Unité centrale de traitement) : est le processeur de base pour le calcul. Ils sont excellents pour traiter les tâches séquentielles et sont essentiels pour le calcul général, y compris le prétraitement des données, les tâches d’intelligence artificielle à petite échelle et la coordination avec d’autres composants.

GPU (processeur graphique) : initialement conçu pour le rendu graphique, il est devenu un élément essentiel de l’intelligence artificielle en raison de sa capacité à effectuer simultanément de nombreux calculs simples. Cette capacité de traitement parallèle rend le GPU très adapté à l’entraînement de modèles d’apprentissage en profondeur. Sans le développement des GPU, les modèles GPT modernes ne pourraient pas être réalisés.

Accélérateur d’IA : une puce conçue spécifiquement pour les charges de travail de l’intelligence artificielle, optimisée pour les opérations d’intelligence artificielle courantes, offrant des performances élevées et une efficacité énergétique élevée pour les tâches d’entraînement et d’inférence.

FPGA(可编程阵列逻辑)：avec sa nature reprogrammable, il offre une grande flexibilité. Ils peuvent être optimisés pour des tâches spécifiques d’intelligence artificielle, en particulier dans les scénarios d’inférence nécessitant une latence réduite.

IOSG：从硅到智能，人工智能训练与推理技术栈

2. Logiciel sous-jacent : Middleware

Cette couche de la pile technologique de l’IA est cruciale car elle sert de pont entre les cadres d’IA avancés et le matériel sous-jacent. Des technologies telles que CUDA, ROCm, OneAPI et SNPE renforcent le lien entre les cadres avancés et les architectures matérielles spécifiques, permettant ainsi d’optimiser les performances.

En tant que couche logicielle exclusive de NVIDIA, CUDA est la pierre angulaire de l’ascension de l’entreprise sur le marché du matériel AI. Le leadership de NVIDIA provient non seulement de ses avantages matériels, mais aussi de puissants effets de réseau intégrant logiciels et écosystème.

La raison pour laquelle CUDA a un tel impact est qu’il intègre la technologie de l’IA et fournit un ensemble complet de bibliothèques d’optimisation qui sont devenues de facto des normes dans ce domaine. Cet écosystème logiciel crée un effet de réseau puissant : les chercheurs et développeurs en IA qui maîtrisent CUDA le diffusent dans le milieu universitaire et industriel lors du processus d’entraînement.

Ce cercle vertueux renforce la position de leader de NVIDIA sur le marché, car l’écosystème d’outils et de bibliothèques basé sur CUDA devient de plus en plus indispensable pour les professionnels de l’IA.

Cette symbiose logicielle et matérielle non seulement consolide la position de NVIDIA en tant que leader du calcul IA, mais confère également à l’entreprise une capacité de tarification significative, ce qui est rare sur le marché des matériels généralement commercialisés.

La position dominante de CUDA et la relative discrétion de ses concurrents peuvent être attribuées à plusieurs facteurs, créant ainsi des barrières significatives à l’entrée. L’avantage initial de NVIDIA dans le domaine du calcul accéléré par GPU a permis à CUDA d’établir un écosystème solide avant que ses concurrents ne parviennent à s’imposer. Bien que des concurrents tels qu’AMD et Intel disposent de matériel de qualité, leur couche logicielle souffre d’un manque de bibliothèques et d’outils essentiels, et ne peut s’intégrer de manière transparente aux piles technologiques existantes, ce qui explique la grande disparité entre NVIDIA/CUDA et les autres concurrents.

IOSG：从硅到智能，人工智能训练与推理技术栈

3. Compilateur: Traducteur

TVM (Tensor Virtual Machine), MLIR (Multi-Level Intermediate Representation), and PlaidML provide different solutions to optimize AI workloads across multiple hardware architectures.

TVM est issu de la recherche de l’Université de Washington et a rapidement gagné en popularité pour son optimisation des modèles d’apprentissage en profondeur pour une variété d’appareils, allant des GPU haute performance aux appareils périphériques à ressources limitées. Sa principale force réside dans son processus d’optimisation de bout en bout, qui est particulièrement efficace dans les scénarios d’inférence. Il abstrait complètement les différences entre les fournisseurs et le matériel sous-jacent, ce qui permet aux charges de travail d’inférence de s’exécuter sans heurts sur différents matériels, qu’il s’agisse de dispositifs NVIDIA, AMD, Intel, etc.

Cependant, en dehors du raisonnement, la situation devient plus complexe. L’objectif ultime de la substitution matérielle de l’IA pour le calcul n’a pas encore été résolu. Cependant, il existe plusieurs initiatives notables à cet égard.

MLIR, le projet de Google, utilise une approche plus fondamentale. En fournissant une représentation intermédiaire unifiée pour plusieurs niveaux d’abstraction, il vise à simplifier l’ensemble de l’infrastructure du compilateur pour les cas d’utilisation d’inférence et de formation.

PlaidML, maintenant dirigé par Intel, se positionne comme un outsider dans cette compétition. Il se concentre sur la portabilité à travers différentes architectures matérielles (y compris des architectures autres que les accélérateurs d’IA traditionnels) et envisage un avenir où les charges de travail d’IA s’exécutent sans problème sur toutes les plates-formes de calcul.

Si l’un de ces compilateurs peut s’intégrer bien dans la pile technologique sans affecter les performances du modèle et sans nécessiter de modifications supplémentaires par les développeurs, il pourrait sérieusement menacer le monopole de CUDA. Cependant, pour l’instant, MLIR et PlaidML ne sont pas suffisamment matures et ne sont pas bien intégrés dans la pile technologique de l’intelligence artificielle, donc ils ne menacent pas clairement la position dominante de CUDA.

IOSG：从硅到智能，人工智能训练与推理技术栈

4. Calcul distribué: Coordinateur

Ray et Horovod représentent deux méthodes différentes de calcul distribué dans le domaine de l’IA, chacune résolvant les besoins clés de traitement évolutif des applications d’IA à grande échelle.

Ray, développé par RISELab de l’UC Berkeley, est un framework de calcul distribué polyvalent. Il se distingue par sa flexibilité, permettant la répartition de divers types de charges de travail en dehors de l’apprentissage automatique. Le modèle basé sur des acteurs dans Ray simplifie grandement le processus de parallélisation du code Python, le rendant particulièrement adapté aux tâches d’apprentissage par renforcement et autres tâches d’intelligence artificielle nécessitant des flux de travail complexes et variés.

Horovod, initialement conçu par Uber, est une implémentation distribuée axée sur la profondeur de l’apprentissage. Il fournit une solution concise et efficace pour étendre le processus d’apprentissage en profondeur sur plusieurs GPU et nœuds de serveur. Les points forts d’Horovod résident dans sa convivialité et son optimisation pour l’entraînement de données de réseau neuronal parallèle, ce qui lui permet de s’intégrer parfaitement aux principaux frameworks d’apprentissage en profondeur tels que TensorFlow et PyTorch, permettant aux développeurs d’étendre facilement leur code d’entraînement existant sans avoir à apporter de nombreuses modifications de code.

IOSG：从硅到智能，人工智能训练与推理技术栈

5.结束语:从Cryptomonnaie角度

L’intégration avec la pile AI existante est essentielle pour le projet DePin qui vise à construire un système de calcul distribué. Cette intégration garantit la compatibilité avec les flux de travail et les outils AI actuels, ce qui réduit la barrière à l’adoption.

Dans le domaine des cryptoactifs, le réseau GPU actuel est essentiellement une plateforme de location de GPU décentralisée, marquant ainsi les premiers pas vers une infrastructure distribuée plus complexe pour l’IA. Ces plateformes ressemblent davantage à des marchés de type Airbnb qu’à des opérations de cloud distribué. Bien qu’elles soient utiles pour certaines applications, ces plateformes ne sont pas encore suffisantes pour prendre en charge un véritable entraînement distribué, ce qui est une exigence clé pour faire avancer le développement de l’IA à grande échelle.

Les normes actuelles de calcul distribué telles que Ray et Horovod ne sont pas conçues pour un réseau distribué mondial. Pour un réseau de Décentralisation qui fonctionne réellement, nous avons besoin de développer un autre framework à ce niveau. Certains sceptiques pensent même que les modèles Transformer sont incompatibles avec les méthodes d’entraînement distribué en raison de la communication intensive et de l’optimisation des fonctions globales nécessaires lors du processus d’apprentissage. D’autre part, des optimistes tentent de proposer de nouveaux frameworks de calcul distribué qui fonctionnent bien avec du matériel distribué à l’échelle mondiale. Yotta est l’une des start-ups qui essaie de résoudre ce problème.

NeuroMesh va encore plus loin. Il redéfinit le processus d’apprentissage machine d’une manière particulièrement innovante. En utilisant un réseau de codage prédictif (PCN) pour rechercher la convergence de la minimisation des erreurs locales plutôt que de rechercher directement la solution optimale de la fonction de perte globale, NeuroMesh résout un obstacle fondamental à la formation d’IA distribuée.

Cette méthode permet non seulement une parallélisation sans précédent, mais rend également possible l’entraînement du modèle sur du matériel GPU grand public (comme le RTX 4090), ce qui démocratise l’entraînement de l’IA. Plus précisément, la puissance de calcul du GPU 4090 est similaire à celle du H100, mais en raison d’une bande passante insuffisante, ils ne sont pas pleinement exploités lors du processus d’entraînement du modèle. En raison de l’importance de la bande passante, PCNGoutte rend possible l’utilisation de ces GPU d’entrée de gamme, ce qui peut entraîner des économies significatives de coûts et une amélioration de l’efficacité.

GenSyn, une autre start-up ambitieuse de chiffrement AI, vise à construire un compilateur de piège. Le compilateur de Gensyn permet à n’importe quel type de matériel informatique d’être utilisé de manière transparente pour les charges de travail d’IA. Par exemple, tout comme TVM joue un rôle dans l’inférence, GenSyn cherche à construire des outils similaires pour la formation de modèles.

Si elle réussit, elle pourrait considérablement étendre les capacités du réseau de calcul AI décentralisé en utilisant efficacement divers matériels pour traiter des tâches AI plus complexes et variées. Cette vision ambitieuse, bien que difficile en raison de la complexité de l’optimisation des architectures matérielles diverses et des risques technologiques élevés, pourrait affaiblir les remparts de CUDA et de NVIDIA si elle parvient à réaliser cette vision en surmontant des obstacles tels que le maintien des performances des systèmes hétérogènes.

En ce qui concerne le raisonnement : la méthode hyperbolique, qui combine le raisonnement vérifiable avec le réseau de décentralisation des ressources de calcul hétérogènes, reflète une stratégie relativement pragmatique. En utilisant des normes de compilation telles que TVM, Hyperbolic peut utiliser une large gamme de configurations matérielles tout en maintenant les performances et la fiabilité. Il peut agréger des puces provenant de plusieurs fournisseurs, allant des consommateurs aux matériels haute performance, notamment NVIDIA, AMD, Intel, etc.

Le développement de ces projets dans le domaine de chiffrement AI annonce un avenir où le calcul de l’IA pourrait devenir plus distribué, efficace et accessible. Le succès de ces projets dépend non seulement de leur avantage technologique, mais également de leur capacité à s’intégrer parfaitement aux flux de travail d’IA existants et à résoudre les préoccupations réelles des praticiens de l’IA et des entreprises.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.