La longitud del texto del gran modelo supera los 400,000 tokens, la tecnología de texto largo se convierte en una nueva pista para la IA.

robot
Generación de resúmenes en curso

Nuevo punto caliente en la competencia de grandes modelos: el salto en la longitud del texto de 4k a 400k tokens

La tecnología de modelos grandes está avanzando a una velocidad asombrosa, la capacidad de procesamiento de texto ha aumentado de 4k token a 400k token, y la capacidad de manejar textos largos parece haberse convertido en un nuevo estándar para los proveedores de modelos grandes.

En el extranjero, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16k y 32k tokens respectivamente a través de múltiples actualizaciones. Su competidor Anthropic ha expandido la longitud del contexto a 100k tokens de un solo golpe. LongLLaMA ha llevado la longitud del contexto a 256k tokens e incluso más.

En el ámbito nacional, un producto de asistente inteligente lanzado por una startup puede soportar la entrada de aproximadamente 400k tokens de texto. La tecnología LongLoRA, desarrollada en colaboración entre la Universidad China de Hong Kong y el MIT, puede extender la longitud del texto del modelo de 7B a 100k tokens y del modelo de 70B a 32k tokens.

Actualmente, muchas de las principales empresas de modelos grandes y los institutos de investigación tanto nacionales como internacionales están enfocando la expansión de la longitud del contexto como una dirección de actualización clave. La mayoría de estas empresas son estrellas muy valoradas en el mercado de capitales, con montos de financiamiento y valoraciones que alcanzan niveles récord.

¿Qué significa que las empresas de modelos grandes se concentren en la tecnología de textos largos? A simple vista, parece un aumento en la longitud del texto de entrada y en la capacidad de lectura, desde un ensayo corto hasta una novela larga. El significado más profundo radica en impulsar la aplicación práctica de los grandes modelos en campos especializados como las finanzas, la justicia y la investigación científica, satisfaciendo la demanda de procesamiento de documentos largos en estos sectores.

Sin embargo, la longitud del texto no siempre es mejor cuanto más larga sea. Los estudios muestran que la relación entre el soporte del modelo para entradas de contexto más largas y la mejora en los resultados no es directa; lo clave es cómo el modelo utiliza el contenido del contexto. Sin embargo, la exploración de la longitud del texto en la industria aún no ha alcanzado su límite, 400,000 tokens puede ser solo el comienzo.

La razón por la cual la tecnología de texto largo ha llamado la atención es que puede resolver algunos problemas tempranos de los grandes modelos, como el olvido de información importante en escenarios de personajes virtuales y las limitaciones en el análisis y generación en campos especializados. Al mismo tiempo, el texto largo también es una tecnología clave para promover el desarrollo futuro de aplicaciones nativas de Agentes y AI.

El texto largo puede ayudar al modelo a comprender mejor el significado, reducir la ambigüedad y mejorar la precisión del razonamiento al proporcionar más contexto e información detallada. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.

La tecnología de texto largo demuestra múltiples ventajas en aplicaciones prácticas: puede analizar rápidamente los puntos clave de artículos largos, extraer información clave de informes financieros y realizar preguntas y respuestas sobre un libro completo; en términos de código, puede convertir directamente artículos en código; también puede lograr funciones de diálogo largo personalizadas como el juego de roles. Estas funciones impulsan a los chatbots hacia un desarrollo más profesional, personalizado y profundo.

Sin embargo, la tecnología de texto largo enfrenta la dificultad del "triángulo imposible": existe una restricción mutua entre la longitud del texto, la atención y el poder de cálculo. Cuanto más largo es el texto, más difícil es concentrar la atención, mientras que procesar textos largos requiere más poder de cálculo. Esta dificultad se origina en la estructura Transformer adoptada por la mayoría de los modelos, cuyo volumen de cálculo del mecanismo de autoatención crece de manera cuadrática con la longitud del contexto.

Actualmente hay tres soluciones principales: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo del mecanismo de autoatención y optimizar el modelo en sí. Cada solución tiene sus ventajas y desventajas, y encontrar el mejor equilibrio entre la longitud del texto, la atención y la potencia de cálculo es el desafío que enfrentan los fabricantes de grandes modelos.

Aunque la tecnología de texto largo aún tiene espacio para la optimización, representa la tendencia de los grandes modelos hacia un desarrollo de mayor nivel, y se espera que impulse aplicaciones innovadoras de la IA en más campos profesionales.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 6
  • Compartir
Comentar
0/400
GasGuzzlervip
· hace7h
40w token...Potencia computacional要爆炸了吧
Ver originalesResponder0
BoredRiceBallvip
· hace7h
40w...la distancia hacia la humanidad se ha acortado un poco más.
Ver originalesResponder0
digital_archaeologistvip
· hace7h
¡Advertencia de potencia computacional!
Ver originalesResponder0
AltcoinOraclevip
· hace7h
fascinante cómo la complejidad del algoritmo escala con 400k tokens... clara ruptura alcista de los patrones de atención heredados, para ser honesto
Ver originalesResponder0
DeFiGraylingvip
· hace7h
¿Cómo se puede leer todo esto de una vez?!
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)