IOSG: De silicio a inteligencia, pila de tecnología de entrenamiento e inferencia de inteligencia artificial

2024-08-06 10:11:20

IOSG：从硅到智能，人工智能训练与推理技术栈

El rápido desarrollo de la inteligencia artificial se basa en una infraestructura compleja. El stack tecnológico de IA es una arquitectura de capas compuesta por hardware y software, y es el pilar de la revolución actual de la IA. Aquí analizaremos en profundidad los principales niveles del stack tecnológico y explicaremos las contribuciones de cada nivel al desarrollo e implementación de la IA. Por último, reflexionaremos sobre la importancia de dominar estos conocimientos fundamentales, especialmente al evaluar las oportunidades en el campo interseccional de la Criptomoneda y la IA, como el proyecto DePIN (infraestructura física de Descentralización) y las redes GPU, por ejemplo.

IOSG：从硅到智能，人工智能训练与推理技术栈

1. Capa de hardware: Base de silicio

En el nivel más bajo se encuentra el hardware, que proporciona capacidad de cálculo físico para la inteligencia artificial.

CPU (Unidad Central de procesamiento): es el procesador básico de cálculo. Son buenos para manejar tareas secuenciales y son muy importantes para la computación general, incluyendo el preprocesamiento de datos, tareas de inteligencia artificial a pequeña escala y la coordinación de otros componentes.

GPU (Unidad de Procesamiento Gráfico): Diseñado originalmente para renderizar gráficos, pero se ha convertido en una parte importante de la inteligencia artificial debido a su capacidad para ejecutar múltiples cálculos simples simultáneamente. Esta capacidad de procesamiento en paralelo hace que las GPU sean ideales para entrenar modelos de aprendizaje profundo. Sin el desarrollo de las GPU, los modelos GPT modernos no serían posibles.

Acelerador de IA: Un chip diseñado específicamente para cargas de trabajo de inteligencia artificial, optimizado para operaciones comunes de IA, proporcionando alto rendimiento y eficiencia energética para tareas de entrenamiento e inferencia.

FPGA (Arreglo de Lógica Programable): proporciona flexibilidad con su característica de reprogramación. Pueden ser optimizados para tareas específicas de inteligencia artificial, especialmente en escenarios de inferencia que requieren baja latencia.

IOSG：从硅到智能，人工智能训练与推理技术栈

2. Software de base: middleware

Esta capa en la pila de tecnología de IA es crucial, ya que actúa como un puente entre los marcos de IA avanzados y el hardware subyacente. Tecnologías como CUDA, ROCm, OneAPI y SNPE fortalecen la conexión entre los marcos avanzados y las arquitecturas de hardware específicas, logrando así una optimización del rendimiento.

Como capa de software exclusiva de NVIDIA, CUDA es la piedra angular del ascenso de la empresa en el mercado de hardware de IA. El liderazgo de NVIDIA no solo se debe a su ventaja en hardware, sino también a la poderosa red de efectos de software y ecosistemas integrados.

La razón por la cual CUDA tiene un impacto tan grande es porque se integra en el stack de tecnología de IA y proporciona un conjunto completo de bibliotecas de optimización que se han convertido en el estándar de facto en este campo. Este ecosistema de software ha construido un efecto de red poderoso: los investigadores y desarrolladores de IA que dominan CUDA lo utilizan y lo difunden en el proceso de entrenamiento en la academia y la industria.

El ciclo virtuoso resultante refuerza la posición de liderazgo de NVIDIA en el mercado, ya que el ecosistema de herramientas y bibliotecas basadas en CUDA se vuelve cada vez más indispensable para los profesionales de la IA.

Esta simbiosis de hardware y software no solo consolida la posición de NVIDIA en el frente del cálculo de IA, sino que también le otorga una notable capacidad de fijación de precios, algo poco común en el mercado de hardware generalmente comercializado.

La posición dominante de CUDA y el relativo silencio de sus competidores se pueden atribuir a una serie de factores que han creado barreras significativas de entrada. La ventaja inicial de NVIDIA en el campo de la computación acelerada por GPU ha permitido que CUDA establezca un ecosistema sólido antes de que sus competidores puedan afianzarse. Aunque competidores como AMD e Intel tienen hardware excelente, su capa de software carece de las bibliotecas y herramientas necesarias, y no pueden integrarse sin problemas con las pilas tecnológicas existentes. Esta es la razón por la cual existe una gran brecha entre NVIDIA/CUDA y otros competidores.

IOSG：从硅到智能，人工智能训练与推理技术栈

3. Compilador: Traductor

TVM (Máquina Virtual de Tensor), MLIR (Representación Intermedia Multicapa) y PlaidML ofrecen soluciones diferentes para el desafío de optimizar cargas de trabajo de IA en múltiples arquitecturas de hardware.

TVM se originó en la investigación de la Universidad de Washington y rápidamente ganó profundidad al poder optimizar modelos de aprendizaje seguir para diversos dispositivos, desde GPU de alto rendimiento hasta dispositivos de borde con recursos limitados. Su ventaja radica en su flujo de optimización de extremo a extremo, que es especialmente efectivo en escenarios de inferencia. Abstrae por completo las diferencias de proveedores y hardware subyacentes, lo que permite que las cargas de trabajo de inferencia se ejecuten sin problemas en diferentes hardware, ya sea en dispositivos NVIDIA, AMD, Intel, etc.

Sin embargo, más allá del razonamiento, la situación se vuelve aún más complicada. El objetivo final de la sustitución del hardware para el cálculo en el entrenamiento de IA aún no se ha resuelto. Sin embargo, hay varias iniciativas que vale la pena mencionar en este sentido.

MLIR, el proyecto de Google, utiliza un enfoque más fundamental. Al proporcionar una representación intermedia unificada para múltiples niveles de abstracción, tiene como objetivo simplificar la infraestructura completa del compilador para casos de uso de inferencia y entrenamiento.

PlaidML, ahora liderado por Intel, se posiciona como un caballo oscuro en esta competencia. Se centra en la portabilidad a través de múltiples arquitecturas de hardware (incluidas aquellas más allá de los aceleradores de IA tradicionales), anticipando un futuro en el que las cargas de trabajo de IA se ejecuten sin problemas en diversas plataformas de cálculo.

Si alguno de estos compiladores puede integrarse bien en la pila tecnológica sin afectar el rendimiento del modelo ni requerir modificaciones adicionales por parte de los desarrolladores, esto podría representar una amenaza para el dominio de CUDA. Sin embargo, actualmente MLIR y PlaidML no están lo suficientemente maduros ni están bien integrados en la pila de tecnología de inteligencia artificial, por lo que actualmente no representan una amenaza evidente para el liderazgo de CUDA.

IOSG：从硅到智能，人工智能训练与推理技术栈

4. Computación distribuida: Coordinador

Ray y Horovod representan dos métodos diferentes de cómputo distribuido en el campo de la inteligencia artificial, cada uno de los cuales aborda la necesidad clave de procesamiento escalable en aplicaciones de IA a gran escala.

Ray, desarrollado por RISELab en UC Berkeley, es un marco de cálculo distribuido general. Destaca en flexibilidad, permitiendo la asignación de cargas de trabajo de varios tipos además del aprendizaje automático. El modelo basado en actores en Ray simplifica en gran medida el proceso de paralelización del código Python, lo que lo hace especialmente adecuado para tareas de inteligencia artificial como el aprendizaje reforzado y otros flujos de trabajo complejos y diversos.

Horovod, originalmente diseñado por Uber, se centra en la implementación distribuida del aprendizaje profundo. Proporciona una solución concisa y eficiente para escalar el proceso de entrenamiento del aprendizaje profundo en múltiples GPU y servidores. El punto destacado de Horovod radica en su facilidad de uso y optimización para el entrenamiento de datos en paralelo de redes neuronales, lo que le permite integrarse perfectamente con marcos de aprendizaje profundo populares como TensorFlow, PyTorch, y permite a los desarrolladores extender fácilmente su código de entrenamiento existente sin necesidad de realizar una gran cantidad de modificaciones en el código.

IOSG：从硅到智能，人工智能训练与推理技术栈

5. Conclusion: Desde la perspectiva de Criptomoneda

La integración con el stack de AI existente es crucial para el proyecto DePin, que tiene como objetivo construir un sistema de cómputo distribuido. Esta integración garantiza la compatibilidad con los flujos de trabajo y las herramientas de AI actuales, lo que Soltar el umbral de adopción.

En el campo de Criptomoneda, la red actual de GPU es fundamentalmente una plataforma de alquiler de GPU descentralizada, lo que marca un primer paso hacia infraestructuras de IA distribuidas más complejas. Estas plataformas son más parecidas a un mercado estilo Airbnb que a una nube distribuida. Aunque son útiles para algunas aplicaciones, estas plataformas todavía no son suficientes para respaldar el entrenamiento verdaderamente distribuido, lo cual es una necesidad fundamental para impulsar el desarrollo de IA a gran escala.

Los estándares actuales de computación distribuida como Ray y Horovod no están diseñados para redes distribuidas globales. Para una red descentralizada que realmente funcione, necesitamos desarrollar otro marco en este nivel. Incluso algunos escépticos creen que los modelos Transformer son incompatibles con los métodos de entrenamiento distribuido debido a la comunicación intensiva y la optimización de funciones globales necesarias durante el proceso de aprendizaje. Por otro lado, los optimistas están intentando proponer nuevos marcos de computación distribuida que se puedan integrar bien con el hardware distribuido a nivel mundial. Yotta es una de las empresas emergentes que está tratando de abordar este problema.

NeuroMesh va un paso más allá. Rediseña el proceso de aprendizaje automático de una manera particularmente innovadora. Al utilizar la red de codificación predictiva (PCN) para buscar la convergencia de minimización de errores locales en lugar de buscar directamente la solución óptima de la función de pérdida global, NeuroMesh resuelve un cuello de botella fundamental en el entrenamiento de IA distribuida.

Este método no solo logra una paralelización sin precedentes, sino que también hace posible el entrenamiento de modelos en hardware de GPU de consumo (como RTX 4090), lo que democratiza el entrenamiento de IA. Específicamente, la capacidad computacional de la GPU 4090 es similar a la del H100, pero debido a la falta de ancho de banda, no se utilizan completamente durante el proceso de entrenamiento del modelo. Dado que se ha subestimado la importancia del ancho de banda, el uso de estas GPU de gama baja se vuelve posible, lo que podría resultar en ahorros significativos de costos y mejoras en la eficiencia.

GenSyn, otra ambiciosa startup de inteligencia artificial de encriptación, tiene como objetivo construir un compilador trampa. El compilador de Gensyn permite que cualquier tipo de hardware de cómputo se utilice sin problemas para las cargas de trabajo de IA. Para dar un ejemplo, GenSyn está tratando de construir una herramienta similar a TVM para la capacitación de modelos.

Si tiene éxito, puede ampliar significativamente la capacidad de la red de cálculo de IA descentralizada al aprovechar eficientemente diversos tipos de hardware para manejar tareas de IA más complejas y diversas. Esta ambiciosa visión, aunque desafiante debido a la complejidad de la optimización de la arquitectura de hardware diversa y los altos riesgos tecnológicos, podría debilitar la protección de CUDA y NVIDIA si logran ejecutar esta visión y superar obstáculos como mantener el rendimiento de sistemas heterogéneos.

En cuanto a la inferencia, el enfoque hiperbólico que combina la inferencia verificable con recursos computacionales heterogéneos en una red de descentralización refleja una estrategia relativamente pragmática. Al utilizar estándares de compilación como TVM, Hyperbolic puede aprovechar una amplia gama de configuraciones de hardware, manteniendo al mismo tiempo el rendimiento y la fiabilidad. Puede agregar chips de múltiples proveedores, desde NVIDIA hasta AMD, Intel, incluyendo hardware de consumo y de alto rendimiento.

El desarrollo de estos proyectos en el campo cruzado de encriptación AI indica un futuro en el que el cálculo de la IA puede volverse más distribuido, eficiente y accesible. El éxito de estos proyectos depende no solo de su ventaja tecnológica, sino también de su capacidad de integrarse perfectamente con los flujos de trabajo de IA existentes y de abordar las preocupaciones reales de los profesionales de la IA y las empresas.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.