Dans le dernier épisode du « All-In Podcast », les quatre animateurs ont révélé qu’OpenAI avait conclu un partenariat majeur avec la startup américaine de puces IA Cerebras. Au cours des trois prochaines années, ils achèteront jusqu’à 750 térawatts de puissance de calcul, ce qui représente une échelle de plusieurs milliards de dollars. L’objectif de cette transaction ne concerne pas la formation de modèles, mais se concentre sur une étape clé de la commercialisation de l’IA : (l’inférence), c’est-à-dire la capacité de fournir des réponses et des services en temps réel via le modèle. Les quatre ont souligné que cela symbolise une évolution dans la compétition de l’industrie IA, passant de « qui entraîne le plus grand modèle » à « qui peut offrir la capacité d’inférence la plus rapide, la plus stable et la plus rentable ».
Contrat de 750 térawatts sur trois ans, OpenAI prépare l’inférence
Dans l’émission, il a été mentionné qu’OpenAI s’était engagé à acheter jusqu’à 750 térawatts de ressources de calcul auprès de Cerebras en trois ans, ce qui équivaut à la puissance d’une grande centrale électrique, spécifiquement pour soutenir le fonctionnement des systèmes IA en phase d’application pratique.
Les animateurs ont insisté sur le fait que cette collaboration ne vise pas à entraîner de nouveaux modèles, mais à soutenir les besoins d’inférence en temps réel pour ChatGPT, les API et diverses applications IA. Avec l’augmentation rapide du nombre d’utilisateurs et de scénarios d’utilisation, la puissance de calcul nécessaire pour l’inférence dépassera largement celle requise lors de la formation des modèles.
La technologie Cerebras adopte une approche différente, en fabriquant une seule puce à partir d’une seule wafer
Les invités ont expliqué que Cerebras, dès sa création, a choisi une voie totalement différente de celle des circuits intégrés classiques.
Les circuits traditionnels sont fabriqués en découpant une wafer en plusieurs petits chips, qui sont ensuite encapsulés séparément ; Cerebras, à l’inverse, conçoit une seule puce géante à partir d’une wafer entière, intégrant un grand nombre d’unités de calcul et de mémoire.
Ce design permet de réduire considérablement la distance physique entre le calcul et la mémoire, évitant la transmission de données entre plusieurs puces, ce qui diminue la complexité du système et contribue à améliorer l’efficacité globale du calcul.
Cerebras mise sur une faible latence, l’inférence nécessitant une vitesse élevée
Dans l’émission, il a été souligné que le critère clé lors de l’inférence concerne la rapidité de réponse, la latence et la stabilité du système. Après avoir envoyé une instruction, le modèle doit effectuer le calcul et renvoyer le résultat immédiatement, toute latence pouvant impacter directement l’expérience utilisateur.
Étant donné que Cerebras concentre une grande puissance de calcul et de mémoire sur une seule puce géante, les données circulent sur une très courte distance, ce qui est particulièrement adapté aux scénarios d’inférence nécessitant des réponses à haute fréquence et à faible latence.
L’émission a mentionné que les premières institutions à utiliser massivement le système Cerebras étaient des organismes du Moyen-Orient, notamment des entités liées aux Émirats arabes unis ; après déploiement, ces systèmes ont montré un avantage évident en termes de vitesse pour certaines tâches d’inférence.
OpenAI diversifie sa chaîne d’approvisionnement pour éviter les risques liés à un seul fournisseur
Les animateurs ont indiqué qu’OpenAI a récemment adopté une stratégie de « multi-fournisseurs », ne dépendant plus entièrement d’un seul fabricant de puces.
Actuellement, OpenAI utilise massivement la puissance de NVIDIA (NVIDIA), collabore également avec AMD (AMD), et introduit maintenant Cerebras, créant ainsi plusieurs voies d’approvisionnement en puissance de calcul. L’objectif est de répartir les risques, afin d’éviter que des changements de capacité, de prix ou de politique d’un seul fournisseur n’affectent la stabilité globale du service.
L’émission a décrit cela comme une « décentralisation » de la chaîne d’approvisionnement en puissance de calcul, garantissant la continuité du service même en cas de problème sur l’une des voies.
L’industrie des puces en pleine recomposition, les jeunes startups ont aussi leur chance
Les animateurs pensent que cette collaboration ne représente pas seulement un ajustement stratégique pour OpenAI, mais aussi le signe qu’une nouvelle phase de compétition s’ouvre dans l’industrie des puces IA.
Dans 10 à 20 ans, il est possible que la situation ressemble à celle des débuts de l’industrie des PC, où de nombreux acteurs se disputaient le marché. Non seulement les grands fabricants de puces, mais aussi de nombreuses startups pourraient trouver leur place dans les domaines de l’inférence, des puces spécialisées ou des puces pour applications verticales.
Avec la demande croissante pour la commercialisation de l’IA, tant que la direction technologique est correcte, les petites startups ont encore une chance de s’imposer rapidement dans l’industrie.
Le déplacement du centre d’intérêt, du entraînement à l’inférence
Pour conclure, l’émission a résumé que, lors des premières phases de développement de l’IA, le marché se concentrait sur qui pouvait entraîner le plus grand et le plus puissant modèle ; mais avec la mise en œuvre concrète, la véritable compétition portera sur qui peut fournir des services d’inférence plus rapides, moins coûteux et plus stables.
La collaboration entre OpenAI et Cerebras est considérée comme un indicateur clé de cette transition, montrant que la compétition IA évolue progressivement du « volume d’entraînement » vers « l’efficacité de l’inférence ».
(« All-In Podcast » prédit pour 2026 : IA, cuivre et électricité deviennent les nouveaux piliers de l’économie mondiale)
Cet article, « All-In Podcast » : La bataille de l’IA se tourne vers l’inférence, la guerre des puces en silicium redémarre, et les jeunes startups peuvent aussi sortir du lot, est initialement paru sur ABMedia.