Economía de tokens de Jensen Huang

GateUser-bd883c58

2026-03-17 13:42:01

¿De qué manera la economía de tokens basada en IA está cambiando el modelo de rentabilidad de los centros de datos?

Periodista Zheng Chenye

La conferencia GTC de Nvidia, considerada un indicador anual del sector de IA, se llevó a cabo del 16 al 19 de marzo en San José, California, EE. UU.

El 16 de marzo a las 11 a.m. hora local, es decir, a la 1 a.m. del 17 de marzo en horario de Beijing, el CEO de Nvidia, Jensen Huang, pronunció una conferencia principal de más de dos horas en el centro SAP de San José.

Huang predijo en su discurso que para 2027 la demanda global de infraestructura de IA alcanzará los 1 billón de dólares. También mencionó que la demanda real podría ser mucho mayor, y que los productos de Nvidia incluso podrían estar en escasez.

Tras anunciar esta cifra, las acciones de Nvidia en EE. UU. subieron instantáneamente más del 4%. Sin embargo, unas horas después, al abrir el mercado en China, las acciones relacionadas con la cadena de valor del cómputo cayeron en conjunto, con Tianfutongtong (300394.SZ) cerrando con una caída superior al 10%, y Changguang Huaxin (688048.SH) cayendo un 9.72%, recuperando casi las ganancias de los últimos cinco días.

Por un lado, la expectativa de un billón de dólares; por otro, la caída en las acciones de la cadena de valor, la diferencia radica en la escala temporal.

Huang hablaba de la demanda futura, pero su predicción de la próxima generación de chips Feynman no estará en el mercado hasta 2028. Además, en un informe publicado el 16 de marzo, Wanjia Securities señaló que el ratio P/E promedio del sector electrónico en A-shares hasta el 15 de marzo era de aproximadamente 82 veces, lo que refleja cierta preocupación del mercado por “las altas temperaturas en las alturas”.

Pero lo que realmente vale la pena analizar en el discurso de Huang no es solo esa cifra de un billón de dólares, sino la lógica comercial que presentó en dos horas: los centros de datos están pasando de ser lugares de entrenamiento de modelos a convertirse en fábricas de tokens.

Fábrica de Tokens

Un token es la unidad básica de procesamiento de información en modelos de lenguaje grande, que puede entenderse como fragmentos de texto generados o procesados por IA. Aproximadamente, un carácter chino equivale a uno o dos tokens.

En los últimos dos años, el consumo de tokens ha experimentado saltos de varias magnitudes.

Huang rastrea estos cambios a tres hitos: a finales de 2022, la aparición de ChatGPT, que enseñó a la IA a generar contenido y a consumir tokens en gran cantidad; tras la aparición del modelo ChatGPT o1, la IA aprendió a razonar y reflexionar, generando muchos tokens internos para pensar; y después del lanzamiento de Claude Code (herramienta de programación IA desarrollada por Anthropic), la IA puede leer archivos, escribir código y realizar pruebas de compilación, consumiendo muchos más tokens por tarea que en simples conversaciones.

Huang mencionó que todos los ingenieros de Nvidia usan IA para asistir en programación.

El trabajo de IA tiene dos fases: entrenamiento, que hace que el modelo sea más inteligente y requiere una gran inversión inicial; y inferencia, que es el proceso en el que el modelo realiza tareas en tiempo real, con una demanda cada vez mayor. Antes, la compra de GPUs (procesadores gráficos, hardware clave para cálculos de IA) se centraba en entrenamiento, pero ahora el foco se está desplazando hacia la inferencia.

Huang afirmó que el negocio de servicios de inferencia creció 100 veces en el último año. El analista Du Yunlong de IDC China también dijo a Economic Observer que, en China, los servidores de inferencia ya superan en crecimiento y participación a los de entrenamiento, y que en términos de valor de envío de servidores, la inferencia representa casi el 60%.

La demanda de inferencia está explotando, pero aún no existe un sistema de precios de mercado para los tokens.

Huang propuso cinco niveles de precios futuros: nivel gratuito, con gran producción de tokens pero respuesta lenta; nivel medio, aproximadamente 3 dólares por millón de tokens; nivel avanzado, unos 6 dólares por millón; nivel de alta velocidad, unos 45 dólares por millón; y nivel premium, aproximadamente 150 dólares por millón. Cuanto mayor sea el tamaño del modelo, más largo sea el contexto y más rápida la respuesta, más caro será el token.

Puso como ejemplo el nivel premium: un equipo de investigación que usa 50 millones de tokens al día, a 150 dólares por millón, solo costaría 7,500 dólares, una cifra insignificante para una empresa. Cuando el tamaño del contexto se amplía de 32K a 400K tokens, la IA puede leer toda una contrato o un código completo en una sola vez, permitiendo tareas que antes no eran posibles, a un precio que refleja esa capacidad.

Con una estructura de precios por niveles, el modelo económico de los centros de datos cambia radicalmente.

Huang explicó que cada centro de datos está limitado por la electricidad, y que un centro de 1 GW (gigavatio) nunca se convertirá en uno de 2 GW, ya que esto está determinado por la electricidad y el terreno. Bajo una potencia fija, quien consuma más tokens por vatio de electricidad tendrá menores costos de producción. Es decir, con la misma cantidad de electricidad, quien produzca más tokens ganará más.

Mostró una serie de cifras: un centro de datos de 1 GW, si distribuye su capacidad de cómputo en diferentes niveles de precios, con la arquitectura Blackwell actual de Nvidia, genera unos 30 mil millones de dólares anuales; con la nueva Vera Rubin, unos 150 mil millones; y con aceleradores de inferencia Groq LPU, hasta 300 mil millones. Con el mismo centro de datos, cambiar de equipo puede hacer variar los ingresos en un factor de 10.

En el año fiscal 2026, Nvidia reportó ingresos totales de 215.9 mil millones de dólares, de los cuales la división de centros de datos aportó 193.7 mil millones.

Siguiendo la lógica de Huang, los centros de datos existentes aún no están siendo aprovechados al máximo; con nuevos equipos, bajo las mismas condiciones eléctricas, los ingresos podrían multiplicarse varias veces. La expectativa de un billón de dólares no proviene solo del aumento en precios de chips, sino de que con la misma electricidad se puedan producir más y más caros tokens.

Huang afirmó que en el futuro cada CEO estará atento a la eficiencia de su “fábrica de tokens”, ya que eso determinará directamente sus ingresos.

También describió un cambio que ya se está produciendo en Silicon Valley: cada vez más ingenieros usan IA en su trabajo diario para programar, investigar y gestionar documentos, operaciones que consumen tokens, y las empresas deberán pagar por ese uso.

Huang predice que estos gastos serán tan altos que las empresas tendrán que incluir un presupuesto específico, como asignar recursos para computadoras y software a los empleados.

Además, dijo que cada ingeniero recibirá al ingresar a la empresa un presupuesto anual de tokens, equivalente aproximadamente a la mitad de su salario base.

Dos tipos de chips

La economía de tokens que Huang describe está relacionada con el hardware presentado en GTC: la plataforma Vera Rubin.

Huang explicó que, en el pasado, cuando hablaba de la arquitectura Hopper, mostraba un solo chip, pero Vera Rubin no es solo un chip, sino un sistema completo. Este sistema logra una refrigeración líquida al 100%, y su instalación se reduce de dos días a solo dos horas.

Vera Rubin está compuesta por siete chips. La estructura principal, NVL72, integra 72 GPUs Rubin y 36 CPUs Vera, conectados mediante NVLink 6 (tecnología de interconexión de alta velocidad desarrollada por Nvidia). En comparación con la generación anterior, Blackwell, cada vatio de rendimiento en inferencia aumenta hasta 10 veces, y el costo por token se reduce a una décima parte.

Nvidia también lanzó una nueva CPU Vera de 88 núcleos, optimizada para tareas de herramientas y procesamiento de datos en escenarios de IA inteligente.

Huang afirmó que Satya Nadella, CEO de Microsoft, le confirmó que los primeros racks Vera Rubin ya están operativos en Azure, la plataforma de nube de Microsoft.

Pero Vera Rubin tiene una limitación: cuando cada usuario necesita generar más de 400 tokens por segundo, el ancho de banda de NVL72 no es suficiente. Para solucionar esto, Nvidia adquirió tecnología y el equipo central de Groq, una empresa estadounidense fundada en 2016 especializada en chips aceleradores de IA. Nvidia ya ha obtenido licencias tecnológicas y el equipo principal de Groq.

Los chips LPU (Unidad de Procesamiento de Lenguaje) de Groq y las GPUs son completamente diferentes. Las GPUs tienen gran memoria y potencia de cálculo; una GPU Rubin tiene 288 GB de memoria, adecuada para cálculos complejos. La LPU, en cambio, tiene poca memoria (solo 500 MB) pero una velocidad de lectura y escritura muy rápida, no puede almacenar todos los parámetros de un modelo grande, pero genera tokens mucho más rápido y con menor latencia que una GPU.

Nvidia ha desarrollado un software llamado Dynamo para gestionar la inferencia, que divide el proceso en dos pasos: la comprensión del contexto, que requiere mucha potencia y memoria y se realiza con Vera Rubin; y la generación de tokens, que es sensible a la latencia y se realiza con la LPU de Groq. Ambos chips se conectan mediante Ethernet de alta velocidad, reduciendo la latencia a la mitad.

Huang denomina a este método “inferencias desacopladas” (dividir el proceso de inferencia entre diferentes chips), basado en la idea de que la alta capacidad de procesamiento y la baja latencia son inherentemente contradictorias, por lo que es mejor que cada chip se especialice en lo que hace mejor.

Dijo que esta combinación logra un rendimiento 35 veces superior a la generación anterior en niveles de precios altos, de 45 y 150 dólares.

Desde una perspectiva a largo plazo, en un centro de datos de 1 GW, la tasa de generación de tokens puede pasar de 22 millones por segundo a 700 millones en dos años.

El consejo de Huang para los clientes es que, si su trabajo se basa en inferencias en lotes de alta capacidad, usen completamente Vera Rubin; si necesitan programación intensiva o interacción en tiempo real, destinen un 25% de la capacidad del centro de datos a la LPU de Groq.

Huang anunció que las LPU de Groq, fabricadas por Samsung, ya están en producción y se espera que salgan al mercado en el tercer trimestre de este año.

En cuanto al software, Nvidia lanzó la plataforma empresarial de agentes inteligentes NemoClaw, que soporta el popular proyecto de código abierto OpenClaw. En pocas semanas, OpenClaw se convirtió en el proyecto de código abierto de mayor crecimiento en GitHub, y Huang la comparó con Linux, considerándola como el sistema operativo para las computadoras de agentes inteligentes.

Pero en entornos empresariales, usar OpenClaw directamente puede presentar riesgos de seguridad, ya que los agentes pueden acceder a datos sensibles, ejecutar código y comunicarse con externos. NemoClaw añade una capa de seguridad empresarial a OpenClaw. Empresas como Adobe, Salesforce y SAP han anunciado que adoptarán el caja de herramientas de Nvidia para agentes inteligentes.

En cuanto a la hoja de ruta, Nvidia anunció que su próxima generación, la arquitectura Feynman, prevista para 2028, soportará por primera vez tanto conexiones por cable de cobre como CPO (tecnología que integra componentes de comunicación óptica directamente en el chip).

Este año también se cumplen 20 años de la creación de CUDA, la plataforma de computación GPU de Nvidia, considerada la base del ecosistema de software de la compañía. Huang mencionó que actualmente el 60% de los negocios de Nvidia proviene de los cinco principales proveedores de servicios en la nube a nivel mundial, y el 40% restante se distribuye en AI soberano, empresas, industria y robótica.

En esta GTC, Nvidia también anunció colaboraciones en conducción autónoma con Uber, BYD, Geely, Hyundai, Nissan y Isuzu. Como resultado, las acciones del sector automotor en Hong Kong subieron en conjunto el 17 de marzo, con Geely Auto (00175.HK) alcanzando un aumento superior al 5% durante la sesión, cerrando finalmente con un incremento del 4.55%.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta