¡El rendimiento del modelo grande 20B es comparable al Llama2-70B! Completamente de código abierto, todo, desde la base hasta las herramientas, está claramente organizado.
¡Justo ahora, el registro de parámetros del modelo de código abierto nacional se ha actualizado nuevamente!
El 20 de septiembre, el Laboratorio de Inteligencia Artificial de Shanghai (Laboratorio de IA de Shanghai) y SenseTime, en colaboración con la Universidad China de Hong Kong y la Universidad de Fudan, abrieron oficialmente el modelo InternLM-20B de 20 mil millones de parámetros.
dirección del proyecto:
Comunidad mágica:
Esta vez, se puede decir que la versión de 20 mil millones de parámetros del modelo grande Shusheng·Puyu está "aumentando la cantidad sin aumentar el precio". El número de parámetros es menos de un tercio, pero su rendimiento puede rivalizar con el punto de referencia del modelo actual. modelos de código abierto - Llama2-70B. InternLM-20B deja atrás los actuales modelos 13B de código abierto convencionales en todas las dimensiones.
No solo eso, el sistema de herramientas de cadena completa para el desarrollo y aplicación de modelos grandes también se actualizó al mismo tiempo.
Desde el modelo de código abierto en sí hasta toda la cadena de herramientas de código abierto, esta vez, el Laboratorio de IA de Shanghai ha sacado a relucir todos los tesoros acumulados de su propia investigación y desarrollo de modelos a gran escala, con la esperanza de ayudar a investigadores, instituciones y profesionales sociales. Todo el mundo puede participar en la revolución tecnológica provocada por los grandes modelos a muy bajo coste y umbral.
El rendimiento es "líder en su clase" y el umbral está "listo para usar nada más sacarlo de la caja". ¡InternLM-20B es el catalizador y el nuevo punto de apoyo para que los modelos grandes se introduzcan en miles de industrias!
Esta ola de modelos grandes beneficiará a todos.
Todo lo que utilizamos es de código abierto.
Como todos sabemos, en todo el sistema de I+D de modelos grandes, hay múltiples vínculos unidos, lo que constituye un conjunto muy complejo de bucles cerrados.
¿Cómo organizarlo de una forma más estandarizada? ¿Cómo utilizar el modelo base después de conseguirlo? ¿Qué precauciones se deben tomar durante el proceso de implementación paso a paso? Hay problemas en todas partes.
Después de una práctica real en el trabajo diario, el equipo del Laboratorio de IA de Shanghai ha acumulado una valiosa experiencia.
Ahora, para prosperar el ecosistema de código abierto, simplemente abren todas las herramientas involucradas en el modelo, desde la preparación de datos hasta la capacitación previa, la implementación y las aplicaciones de evaluación.
Descifra la "Fórmula Exclusiva"
La importancia de los datos para los modelos grandes es como la materia prima para la producción: sin una fuente de energía, no pueden impulsar el funcionamiento de los sistemas inteligentes de IA. En particular, los datos de alta calidad son uno de los elementos clave para la industrialización de grandes modelos.
En términos de recopilación, no solo es necesario filtrar y limpiar de manera efectiva los materiales originales rastreados desde varios canales, como páginas web, libros, informes profesionales y artículos, sino también aprovechar al máximo los comentarios proporcionados por los usuarios de pruebas internas del modelo.
Sin embargo, para que LLM adquiera capacidades clave, como comprensión, programación y razonamiento lógico, y se convierta en un verdadero "guerrero hexagonal", es más importante construir datos por sí mismo.
En este sentido, la investigación académica también es muy activa: por ejemplo, "Los libros de texto son todo lo que necesita" de Microsoft puede lograr una ventaja relativa en el punto de referencia mediante la construcción de un modelo phi-1 entrenado con datos.
En lo que respecta al equipo del Laboratorio de IA de Shanghai, no eligieron construir datos desde una sola dirección, sino desde una "dimensión completa", clasificando todo el sistema de conocimiento y construyendo un corpus.
Por tanto, la densidad de conocimiento y lógica en estos corpus es muy alta.
Agregar una pequeña cantidad de "catalizador" a una gran cantidad de contenido regular no solo puede estimular mejor las capacidades clave de LLM, sino que también permite que el modelo absorba y comprenda mejor la información relevante.
En palabras de Lin Dahua, un destacado científico del Laboratorio de IA de Shanghai, "en cierto sentido, una ficha aquí puede ser equivalente a la eficacia de 10 o incluso 100 fichas tradicionales".
En términos de potencia informática, a excepción de las grandes empresas de Internet que tienen abundantes recursos, a la mayoría de los desarrolladores de la comunidad de código abierto les resulta difícil obtener más potencia informática.
"Espero que haya herramientas ligeras que puedan utilizar el modelo". Esta es la mayor cantidad de comentarios de la comunidad que ha recibido el Laboratorio de IA de Shanghai.
A través de la herramienta de ajuste ligero de código abierto XTuner, los usuarios pueden utilizar sus propios datos para ajustar el modelo de código abierto del Laboratorio de IA de Shanghai en una GPU de consumo de 8 GB.
Además, en términos de aplicación del modelo, el "diálogo por chat" sigue siendo una parte muy importante de las capacidades del modelo.
El Laboratorio de IA de Shanghai también quiere resaltar que el modelo grande sirve como un centro y utiliza herramientas para resolver problemas, similar a la forma en que Code Interpreter llama herramientas.
Al mismo tiempo, durante este proceso, el modelo grande también puede realizar la autorreflexión: este es el enorme potencial de los agentes inteligentes con el apoyo de LLM.
Lin Dahua cree que Agent será una dirección muy valiosa para el desarrollo a largo plazo que debe explorarse.
En el mundo final de los agentes inteligentes, toda la división organizacional del trabajo continuará actualizándose y evolucionando. En el futuro, definitivamente coexistirán muchos agentes inteligentes, cada uno con sus propias áreas de especialización, y habrá muchas tecnologías. que puedan favorecer la comunicación entre ellos.
Entonces, ¿dónde está la actualización específica de esta cadena de herramientas?
- Datos: corpus de preentrenamiento OpenDataLab de código abierto "Scholar·Ten Thousand Volumes"
En términos de datos, el corpus de entrenamiento multimodal Scholar·Wanjuan 1.0 se abrió oficialmente el 14 de agosto. El volumen total de datos supera los 2 TB, incluido el conjunto de datos de texto, el conjunto de datos gráficos y el conjunto de datos de video.
A través de la "digestión" de corpus de alta calidad, los modelos de la serie Shusheng han demostrado un rendimiento excelente en diversas tareas generativas, como comprensión semántica, preguntas y respuestas de conocimiento, comprensión visual y preguntas y respuestas visuales.
Hasta ahora, ha habido casi 100.000 descargas.
- Capacitación previa: marco de capacitación previa eficiente de InternLM
En la etapa de capacitación previa, el almacén InternLM también abrió el marco de capacitación previa InternLM-Train.
Por un lado, integra profundamente los operadores del modelo Transformer para mejorar la eficiencia de la capacitación y, por otro lado, propone la tecnología Hybrid Zero única para lograr una superposición eficiente de computación y comunicación, reduciendo en gran medida el tráfico de comunicación entre nodos durante el proceso de capacitación.
Gracias a la máxima optimización del rendimiento, este sistema de código abierto logra una alta eficiencia de computación paralela de kilotarjetas y su rendimiento de capacitación ha alcanzado el nivel líder en la industria.
- Ajuste fino: ajuste fino de parámetros completos de InternLM, ajuste fino ligero de XTuner
La caja de herramientas de ajuste fino de modelos grandes de bajo costo XTuner también ha sido de código abierto recientemente y admite una variedad de modelos grandes de código abierto como Llama, así como algoritmos de ajuste fino como LoRA y QLoRA.
En términos de requisitos de hardware, XTuner solo necesita un mínimo de 8 GB de memoria de video para realizar un ajuste fino de bajo costo del modelo 7B. El ajuste fino del modelo 20B también se puede completar en una tarjeta gráfica de consumo con 24G de memoria de video.
XTuner proporciona una variedad de marcos de ajuste para varios modelos de código abierto
- Implementación: LMDeploy admite la inferencia eficiente de miles de millones a cientos de miles de millones de modelos de lenguaje de parámetros
En términos de implementación, LMDeploy cubre un conjunto completo de soluciones de servicio y implementación de inferencia livianas para modelos grandes.
Admite la inferencia eficiente de modelos de mil millones a cien mil millones de parámetros y supera los principales proyectos de código abierto de la comunidad FasterTransformer, vLLM, Deepspeed, etc. en términos de rendimiento y otros rendimientos.
**- Evaluación: plataforma integral de evaluación de modelos grandes OpenCompass **
En la parte de evaluación, la plataforma de evaluación de modelos grandes de código abierto OpenCompass proporciona un sistema de evaluación en cinco dimensiones: materia, lenguaje, conocimiento, comprensión y razonamiento.
Al mismo tiempo, también admite más de 50 conjuntos de datos de evaluación, 300.000 preguntas de evaluación y admite evaluación de muestra cero, muestra pequeña y cadena de pensamiento. Actualmente es la plataforma de evaluación de código abierto más completa.
-Aplicación: marco de agente flexible y ligero de Lagent
En la fase final de la aplicación, el equipo del Laboratorio de IA de Shanghai se centró en el agente, desarrollando y abriendo el marco de agente ligero y flexible de Lagent.
Puede ayudar a los usuarios a transformar rápidamente un modelo de lenguaje grande en múltiples tipos de agentes y proporcionar herramientas típicas para potenciar modelos de lenguaje grande.
Este marco de código abierto integra varios tipos de capacidades de agentes, incluidos los clásicos ReAct, AutoGPT y ReWoo.
La estructura del código de este marco no solo es clara, sino también simple. Con menos de 20 líneas de código, los desarrolladores pueden crear su propio agente.
Con el apoyo de Lagent, estos agentes pueden llamar a grandes modelos de lenguaje para planificar el razonamiento y la invocación de herramientas, y pueden realizar reflexiones y autocorrecciones oportunas durante el proceso de ejecución.
Primer contexto nacional de 16k, 20 mil millones de parámetros vinculados con Llama2-70B
Además de un conjunto completo de grandes cadenas de herramientas modelo, el Laboratorio de IA de Shanghai también ha abierto recientemente el InternLM-20B con hasta 20 mil millones de parámetros.
Los resultados de la evaluación muestran que entre los modelos de código abierto de la misma magnitud, InternLM-20B se merece el mejor rendimiento general.
- Soporte de contexto extra largo
Primero, en términos de longitud del contexto, InternLM-20B puede admitir ventanas de contexto de hasta 16K.
Como se muestra en la siguiente figura, InternLM-20B pudo responder con precisión tres preguntas después de leer un largo artículo de noticias sobre una conocida marca de café.
Para artículos e informes extremadamente extensos, InternLM-20B también puede extraer resúmenes con precisión.
Por ejemplo, después de ingresar el artículo clásico de ResNet, inmediatamente escribe un resumen, que resume con precisión las ideas centrales y los resultados experimentales de ResNet.
- Llama a las herramientas y conviértete en autodidacta
En segundo lugar, con el apoyo de un contexto largo, las capacidades del modelo se amplían enormemente y hay más espacio para la invocación de herramientas, la explicación del código y la reflexión y corrección. Y esta se ha convertido en una tecnología clave para construir cuerpos inteligentes en InternLM-20B.
Ahora, InternLM-20B no solo puede admitir la salida de contenido en docenas de direcciones, como fecha, clima, viajes, deportes, etc., así como decenas de miles de API diferentes, sino que también puede llamar a herramientas de una manera similar a Code Interpreter. .
Al mismo tiempo, en este proceso, también puede reflexionar, revisar y conectar con escenas reales.
En ToolBench, un gran conjunto de evaluación de llamadas de herramientas modelo publicado conjuntamente por la Universidad de Tsinghua y otras instituciones, InternLM-20B logró una tasa de ganancia del 63,5% en comparación con ChatGPT, logrando el mejor resultado de la lista.
Además, el modelo InternLM-20B también exhibe ciertas capacidades de generalización de muestra cero. Incluso si el modelo no ha aprendido algunas herramientas durante el proceso de capacitación, aún puede llamar herramientas según las descripciones de las herramientas y las preguntas de los usuarios.
Como se muestra en la figura siguiente, si le proporciona algunas herramientas de inteligencia artificial, puede planificar y razonar por sí solo y completar los problemas del usuario.
- Liderazgo completo en la misma categoría de peso
En el conjunto de evaluación principal de hasta 50 modelos en varias dimensiones, InternLM-20B también logró el mejor rendimiento general de los modelos de código abierto de la misma magnitud.
Al mismo tiempo, también superó claramente al Llama-33B más grande en términos de rendimiento promedio, e incluso superó por poco al Llama2-70B en algunas evaluaciones.
Específicamente, InternLM-20B tiene excelentes resultados en evaluaciones integrales de materias MMLU, C- y AGI, y ocupa una posición de liderazgo entre los modelos de código abierto de la misma magnitud.
Especialmente en C- y AGI, que incluyen el examen de la materia china, el rendimiento superó significativamente a Llama2-70B.
En la evaluación que pone a prueba el conocimiento fáctico, InternLM-20B supera ampliamente al modelo 13B y puede competir con Llama-33B.
Pero todavía existe una cierta brecha respecto al Llama-65B o Llama2-70B.
En términos de capacidad de comprensión, el rendimiento de InternLM-20B es aún más sobresaliente, superando a todos los modelos de código abierto, incluido Llama2-70B.
El razonamiento es el "obstáculo" que ha fallado en muchos modelos: pone a prueba la capacidad de los modelos grandes para generar dinero real y también determina en gran medida si el modelo puede admitir aplicaciones prácticas.
En los siguientes cuatro conjuntos de evaluación de inferencia, los resultados de InternLM-20B han superado el modelo de código abierto 13B convencional e incluso se han acercado a la capacidad de inferencia de Llama-65B.
En términos de capacidades de programación, el InternLM-20B también se ha mejorado significativamente. En los dos conjuntos de evaluación típicos de Human y MBPP, está cerca de Llama2-70B.
Nota: Las fuentes en negrita en las capturas de pantalla anteriores son los mejores resultados en el rango 13B-33B.
En la última lista de evaluación de Open LLM Leaderboard publicada por HuggingFace, InternLM-20B lidera la puntuación promedio entre los modelos base con menos de 60B parámetros y también supera a Llama-65B.
- Un modelo de código abierto más seguro
Finalmente, en términos de alineación de valores, InternLM-20B también es más completo y seguro.
Si le hace una pregunta sesgada, identificará inmediatamente los factores inseguros y proporcionará una orientación de valor correcta.
Los modelos grandes nunca han sido dominio exclusivo de los grandes fabricantes.
Una vez que haya comenzado la ola de modelos grandes, debemos centrarnos no solo en encabezar la lista de evaluación, sino también en cómo hacer que los modelos grandes pasen de ser "la joya de la corona de la IA" a una "nueva productividad" que pueda usarse en miles de industrias.
A lo largo de la historia, las tecnologías que realmente lideran los tiempos no son sólo innovaciones disruptivas, sino que, lo que es más importante, son de bajo costo, de bajo umbral y están disponibles para todos. Pero las grandes empresas como OpenAI y Google nunca harán públicos los detalles específicos.
Y esta es la intención original del Laboratorio de IA de Shanghai.
Desde su lanzamiento en junio, Shusheng Puyu ha completado múltiples rondas de actualizaciones y ha tenido un gran impacto en la comunidad y la industria del código abierto.
Además, además de abrir el código en GitHub y colocar los modelos en las comunidades HuggingFace y Magic, el Laboratorio de IA de Shanghai incluso envía personal dedicado para leer los comentarios de la comunidad todos los días y responder cuidadosamente las preguntas de los usuarios.
Anteriormente, el modelo LLaMA de Meta era de código abierto, lo que provocó un frenesí de reemplazo de ChatGPT y marcó el comienzo de un momento de difusión estable para modelos de texto grandes.
Al igual que el próspero ecosistema actual de la familia de las alpacas, los esfuerzos de código abierto del Laboratorio de IA de Shanghai definitivamente aportarán un valor inconmensurable a la comunidad.
Para los desarrolladores e investigadores activos de todo el mundo, Shusheng Puyu proporcionará una base de tamaño moderado pero con capacidades muy poderosas.
Aunque la mayoría de las empresas, especialmente las pequeñas y medianas, han visto la tendencia de los modelos grandes, es poco probable que gasten mucho dinero para comprar potencia informática y atraer a los mejores talentos como los grandes fabricantes.
De hecho, a partir de la Conferencia de Inteligencia Artificial del 6 de julio, el Laboratorio de IA de Shanghai ha estado haciendo código abierto en toda la cadena. Por ejemplo, XTuner permite a los usuarios entrenar sus propios modelos utilizando sólo algunos de sus propios datos de una forma muy ligera.
No solo eso, un equipo combinó las preguntas, el corpus, los documentos y el modelo XTuner de la comunidad de código abierto para capacitar un servicio al cliente de la comunidad de código abierto. Esta es una contribución real a la comunidad de código abierto.
De hecho, el Laboratorio de IA de Shanghai ha compartido todo su sistema técnico con la comunidad (es decir, el sistema de herramientas de cadena completa mencionado anteriormente).
Hay tantas industrias, tantas empresas, tantas instituciones y desarrolladores en toda la sociedad que, si realmente pueden darse cuenta del valor de los modelos grandes, será una fuerza muy importante.
Tienen una creatividad infinita, lo único que les falta son recursos.
La "ayuda en tiempos de necesidad" del Laboratorio de IA de Shanghai definitivamente permitirá que los modelos grandes ejerzan un valor enorme en el campo de la implementación.
Como dijo Lin Dahua——
Como laboratorio, podemos proporcionar modelos básicos y una serie de herramientas que integran el conocimiento de varias industrias en datos y capacidades de modelos, y hacerlos muy fáciles de usar y enseñar a más personas a usarlos, para que puedan usarse. en diversas industrias Hay flores y frutas.
Enlace de código abierto del sistema de herramientas de cadena completa
Corpus de preformación "Scholar·Ten Thousand Volumes":
Marco de preformación de InternLM:
Caja de herramientas de ajuste fino de XTuner:
Cadena de herramientas de inferencia LMDeploy:
Plataforma de evaluación de modelos grandes OpenCompas:
Marco de agente lagente:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡El rendimiento del modelo grande 20B es comparable al Llama2-70B! Completamente de código abierto, todo, desde la base hasta las herramientas, está claramente organizado.
**Fuente:**Xinzhiyuan
¡Justo ahora, el registro de parámetros del modelo de código abierto nacional se ha actualizado nuevamente!
El 20 de septiembre, el Laboratorio de Inteligencia Artificial de Shanghai (Laboratorio de IA de Shanghai) y SenseTime, en colaboración con la Universidad China de Hong Kong y la Universidad de Fudan, abrieron oficialmente el modelo InternLM-20B de 20 mil millones de parámetros.
dirección del proyecto:
Comunidad mágica:
Esta vez, se puede decir que la versión de 20 mil millones de parámetros del modelo grande Shusheng·Puyu está "aumentando la cantidad sin aumentar el precio". El número de parámetros es menos de un tercio, pero su rendimiento puede rivalizar con el punto de referencia del modelo actual. modelos de código abierto - Llama2-70B. InternLM-20B deja atrás los actuales modelos 13B de código abierto convencionales en todas las dimensiones.
No solo eso, el sistema de herramientas de cadena completa para el desarrollo y aplicación de modelos grandes también se actualizó al mismo tiempo.
Desde el modelo de código abierto en sí hasta toda la cadena de herramientas de código abierto, esta vez, el Laboratorio de IA de Shanghai ha sacado a relucir todos los tesoros acumulados de su propia investigación y desarrollo de modelos a gran escala, con la esperanza de ayudar a investigadores, instituciones y profesionales sociales. Todo el mundo puede participar en la revolución tecnológica provocada por los grandes modelos a muy bajo coste y umbral.
El rendimiento es "líder en su clase" y el umbral está "listo para usar nada más sacarlo de la caja". ¡InternLM-20B es el catalizador y el nuevo punto de apoyo para que los modelos grandes se introduzcan en miles de industrias!
Esta ola de modelos grandes beneficiará a todos.
Todo lo que utilizamos es de código abierto.
Como todos sabemos, en todo el sistema de I+D de modelos grandes, hay múltiples vínculos unidos, lo que constituye un conjunto muy complejo de bucles cerrados.
¿Cómo organizarlo de una forma más estandarizada? ¿Cómo utilizar el modelo base después de conseguirlo? ¿Qué precauciones se deben tomar durante el proceso de implementación paso a paso? Hay problemas en todas partes.
Después de una práctica real en el trabajo diario, el equipo del Laboratorio de IA de Shanghai ha acumulado una valiosa experiencia.
Ahora, para prosperar el ecosistema de código abierto, simplemente abren todas las herramientas involucradas en el modelo, desde la preparación de datos hasta la capacitación previa, la implementación y las aplicaciones de evaluación.
Descifra la "Fórmula Exclusiva"
La importancia de los datos para los modelos grandes es como la materia prima para la producción: sin una fuente de energía, no pueden impulsar el funcionamiento de los sistemas inteligentes de IA. En particular, los datos de alta calidad son uno de los elementos clave para la industrialización de grandes modelos.
En términos de recopilación, no solo es necesario filtrar y limpiar de manera efectiva los materiales originales rastreados desde varios canales, como páginas web, libros, informes profesionales y artículos, sino también aprovechar al máximo los comentarios proporcionados por los usuarios de pruebas internas del modelo.
Sin embargo, para que LLM adquiera capacidades clave, como comprensión, programación y razonamiento lógico, y se convierta en un verdadero "guerrero hexagonal", es más importante construir datos por sí mismo.
En este sentido, la investigación académica también es muy activa: por ejemplo, "Los libros de texto son todo lo que necesita" de Microsoft puede lograr una ventaja relativa en el punto de referencia mediante la construcción de un modelo phi-1 entrenado con datos.
Por tanto, la densidad de conocimiento y lógica en estos corpus es muy alta.
Agregar una pequeña cantidad de "catalizador" a una gran cantidad de contenido regular no solo puede estimular mejor las capacidades clave de LLM, sino que también permite que el modelo absorba y comprenda mejor la información relevante.
En palabras de Lin Dahua, un destacado científico del Laboratorio de IA de Shanghai, "en cierto sentido, una ficha aquí puede ser equivalente a la eficacia de 10 o incluso 100 fichas tradicionales".
En términos de potencia informática, a excepción de las grandes empresas de Internet que tienen abundantes recursos, a la mayoría de los desarrolladores de la comunidad de código abierto les resulta difícil obtener más potencia informática.
"Espero que haya herramientas ligeras que puedan utilizar el modelo". Esta es la mayor cantidad de comentarios de la comunidad que ha recibido el Laboratorio de IA de Shanghai.
A través de la herramienta de ajuste ligero de código abierto XTuner, los usuarios pueden utilizar sus propios datos para ajustar el modelo de código abierto del Laboratorio de IA de Shanghai en una GPU de consumo de 8 GB.
Además, en términos de aplicación del modelo, el "diálogo por chat" sigue siendo una parte muy importante de las capacidades del modelo.
El Laboratorio de IA de Shanghai también quiere resaltar que el modelo grande sirve como un centro y utiliza herramientas para resolver problemas, similar a la forma en que Code Interpreter llama herramientas.
Al mismo tiempo, durante este proceso, el modelo grande también puede realizar la autorreflexión: este es el enorme potencial de los agentes inteligentes con el apoyo de LLM.
Lin Dahua cree que Agent será una dirección muy valiosa para el desarrollo a largo plazo que debe explorarse.
En el mundo final de los agentes inteligentes, toda la división organizacional del trabajo continuará actualizándose y evolucionando. En el futuro, definitivamente coexistirán muchos agentes inteligentes, cada uno con sus propias áreas de especialización, y habrá muchas tecnologías. que puedan favorecer la comunicación entre ellos.
Entonces, ¿dónde está la actualización específica de esta cadena de herramientas?
- Datos: corpus de preentrenamiento OpenDataLab de código abierto "Scholar·Ten Thousand Volumes"
En términos de datos, el corpus de entrenamiento multimodal Scholar·Wanjuan 1.0 se abrió oficialmente el 14 de agosto. El volumen total de datos supera los 2 TB, incluido el conjunto de datos de texto, el conjunto de datos gráficos y el conjunto de datos de video.
A través de la "digestión" de corpus de alta calidad, los modelos de la serie Shusheng han demostrado un rendimiento excelente en diversas tareas generativas, como comprensión semántica, preguntas y respuestas de conocimiento, comprensión visual y preguntas y respuestas visuales.
Hasta ahora, ha habido casi 100.000 descargas.
- Capacitación previa: marco de capacitación previa eficiente de InternLM
En la etapa de capacitación previa, el almacén InternLM también abrió el marco de capacitación previa InternLM-Train.
Por un lado, integra profundamente los operadores del modelo Transformer para mejorar la eficiencia de la capacitación y, por otro lado, propone la tecnología Hybrid Zero única para lograr una superposición eficiente de computación y comunicación, reduciendo en gran medida el tráfico de comunicación entre nodos durante el proceso de capacitación.
Gracias a la máxima optimización del rendimiento, este sistema de código abierto logra una alta eficiencia de computación paralela de kilotarjetas y su rendimiento de capacitación ha alcanzado el nivel líder en la industria.
- Ajuste fino: ajuste fino de parámetros completos de InternLM, ajuste fino ligero de XTuner
La caja de herramientas de ajuste fino de modelos grandes de bajo costo XTuner también ha sido de código abierto recientemente y admite una variedad de modelos grandes de código abierto como Llama, así como algoritmos de ajuste fino como LoRA y QLoRA.
En términos de requisitos de hardware, XTuner solo necesita un mínimo de 8 GB de memoria de video para realizar un ajuste fino de bajo costo del modelo 7B. El ajuste fino del modelo 20B también se puede completar en una tarjeta gráfica de consumo con 24G de memoria de video.
- Implementación: LMDeploy admite la inferencia eficiente de miles de millones a cientos de miles de millones de modelos de lenguaje de parámetros
En términos de implementación, LMDeploy cubre un conjunto completo de soluciones de servicio y implementación de inferencia livianas para modelos grandes.
Admite la inferencia eficiente de modelos de mil millones a cien mil millones de parámetros y supera los principales proyectos de código abierto de la comunidad FasterTransformer, vLLM, Deepspeed, etc. en términos de rendimiento y otros rendimientos.
En la parte de evaluación, la plataforma de evaluación de modelos grandes de código abierto OpenCompass proporciona un sistema de evaluación en cinco dimensiones: materia, lenguaje, conocimiento, comprensión y razonamiento.
Al mismo tiempo, también admite más de 50 conjuntos de datos de evaluación, 300.000 preguntas de evaluación y admite evaluación de muestra cero, muestra pequeña y cadena de pensamiento. Actualmente es la plataforma de evaluación de código abierto más completa.
En la fase final de la aplicación, el equipo del Laboratorio de IA de Shanghai se centró en el agente, desarrollando y abriendo el marco de agente ligero y flexible de Lagent.
Puede ayudar a los usuarios a transformar rápidamente un modelo de lenguaje grande en múltiples tipos de agentes y proporcionar herramientas típicas para potenciar modelos de lenguaje grande.
La estructura del código de este marco no solo es clara, sino también simple. Con menos de 20 líneas de código, los desarrolladores pueden crear su propio agente.
Además, Lagent admite múltiples modelos grandes, incluidos InternLM, Llama, ChatGPT.
Con el apoyo de Lagent, estos agentes pueden llamar a grandes modelos de lenguaje para planificar el razonamiento y la invocación de herramientas, y pueden realizar reflexiones y autocorrecciones oportunas durante el proceso de ejecución.
Primer contexto nacional de 16k, 20 mil millones de parámetros vinculados con Llama2-70B
Además de un conjunto completo de grandes cadenas de herramientas modelo, el Laboratorio de IA de Shanghai también ha abierto recientemente el InternLM-20B con hasta 20 mil millones de parámetros.
Los resultados de la evaluación muestran que entre los modelos de código abierto de la misma magnitud, InternLM-20B se merece el mejor rendimiento general.
- Soporte de contexto extra largo
Primero, en términos de longitud del contexto, InternLM-20B puede admitir ventanas de contexto de hasta 16K.
Como se muestra en la siguiente figura, InternLM-20B pudo responder con precisión tres preguntas después de leer un largo artículo de noticias sobre una conocida marca de café.
Por ejemplo, después de ingresar el artículo clásico de ResNet, inmediatamente escribe un resumen, que resume con precisión las ideas centrales y los resultados experimentales de ResNet.
En segundo lugar, con el apoyo de un contexto largo, las capacidades del modelo se amplían enormemente y hay más espacio para la invocación de herramientas, la explicación del código y la reflexión y corrección. Y esta se ha convertido en una tecnología clave para construir cuerpos inteligentes en InternLM-20B.
Ahora, InternLM-20B no solo puede admitir la salida de contenido en docenas de direcciones, como fecha, clima, viajes, deportes, etc., así como decenas de miles de API diferentes, sino que también puede llamar a herramientas de una manera similar a Code Interpreter. .
Al mismo tiempo, en este proceso, también puede reflexionar, revisar y conectar con escenas reales.
En ToolBench, un gran conjunto de evaluación de llamadas de herramientas modelo publicado conjuntamente por la Universidad de Tsinghua y otras instituciones, InternLM-20B logró una tasa de ganancia del 63,5% en comparación con ChatGPT, logrando el mejor resultado de la lista.
Como se muestra en la figura siguiente, si le proporciona algunas herramientas de inteligencia artificial, puede planificar y razonar por sí solo y completar los problemas del usuario.
En el conjunto de evaluación principal de hasta 50 modelos en varias dimensiones, InternLM-20B también logró el mejor rendimiento general de los modelos de código abierto de la misma magnitud.
Al mismo tiempo, también superó claramente al Llama-33B más grande en términos de rendimiento promedio, e incluso superó por poco al Llama2-70B en algunas evaluaciones.
Especialmente en C- y AGI, que incluyen el examen de la materia china, el rendimiento superó significativamente a Llama2-70B.
Pero todavía existe una cierta brecha respecto al Llama-65B o Llama2-70B.
En los siguientes cuatro conjuntos de evaluación de inferencia, los resultados de InternLM-20B han superado el modelo de código abierto 13B convencional e incluso se han acercado a la capacidad de inferencia de Llama-65B.
En la última lista de evaluación de Open LLM Leaderboard publicada por HuggingFace, InternLM-20B lidera la puntuación promedio entre los modelos base con menos de 60B parámetros y también supera a Llama-65B.
Finalmente, en términos de alineación de valores, InternLM-20B también es más completo y seguro.
Si le hace una pregunta sesgada, identificará inmediatamente los factores inseguros y proporcionará una orientación de valor correcta.
Los modelos grandes nunca han sido dominio exclusivo de los grandes fabricantes.
Una vez que haya comenzado la ola de modelos grandes, debemos centrarnos no solo en encabezar la lista de evaluación, sino también en cómo hacer que los modelos grandes pasen de ser "la joya de la corona de la IA" a una "nueva productividad" que pueda usarse en miles de industrias.
A lo largo de la historia, las tecnologías que realmente lideran los tiempos no son sólo innovaciones disruptivas, sino que, lo que es más importante, son de bajo costo, de bajo umbral y están disponibles para todos. Pero las grandes empresas como OpenAI y Google nunca harán públicos los detalles específicos.
Y esta es la intención original del Laboratorio de IA de Shanghai.
Desde su lanzamiento en junio, Shusheng Puyu ha completado múltiples rondas de actualizaciones y ha tenido un gran impacto en la comunidad y la industria del código abierto.
Anteriormente, el modelo LLaMA de Meta era de código abierto, lo que provocó un frenesí de reemplazo de ChatGPT y marcó el comienzo de un momento de difusión estable para modelos de texto grandes.
Al igual que el próspero ecosistema actual de la familia de las alpacas, los esfuerzos de código abierto del Laboratorio de IA de Shanghai definitivamente aportarán un valor inconmensurable a la comunidad.
Aunque la mayoría de las empresas, especialmente las pequeñas y medianas, han visto la tendencia de los modelos grandes, es poco probable que gasten mucho dinero para comprar potencia informática y atraer a los mejores talentos como los grandes fabricantes.
De hecho, a partir de la Conferencia de Inteligencia Artificial del 6 de julio, el Laboratorio de IA de Shanghai ha estado haciendo código abierto en toda la cadena. Por ejemplo, XTuner permite a los usuarios entrenar sus propios modelos utilizando sólo algunos de sus propios datos de una forma muy ligera.
De hecho, el Laboratorio de IA de Shanghai ha compartido todo su sistema técnico con la comunidad (es decir, el sistema de herramientas de cadena completa mencionado anteriormente).
Tienen una creatividad infinita, lo único que les falta son recursos.
La "ayuda en tiempos de necesidad" del Laboratorio de IA de Shanghai definitivamente permitirá que los modelos grandes ejerzan un valor enorme en el campo de la implementación.
Como dijo Lin Dahua——
Como laboratorio, podemos proporcionar modelos básicos y una serie de herramientas que integran el conocimiento de varias industrias en datos y capacidades de modelos, y hacerlos muy fáciles de usar y enseñar a más personas a usarlos, para que puedan usarse. en diversas industrias Hay flores y frutas.
Enlace de código abierto del sistema de herramientas de cadena completa
Corpus de preformación "Scholar·Ten Thousand Volumes":
Marco de preformación de InternLM:
Caja de herramientas de ajuste fino de XTuner:
Cadena de herramientas de inferencia LMDeploy:
Plataforma de evaluación de modelos grandes OpenCompas:
Marco de agente lagente: