Ha pasado más de medio año y el ranking de ChatGPT está casi al final.

Autor: Tecnología Sanyan

Hoy me encontré accidentalmente con una foto.

Según la imagen, el GPT-4 de OpenAI ocupa el último lugar entre los 11 modelos grandes (el primero tiene el número 0). Algunos internautas agregaron las palabras "GPT4: ¿Cómo puedo quejarme de mis quejas?"

Esto despierta la curiosidad de la gente. A principios de este año, después de que ChatGPT se hiciera popular, otras empresas comenzaron a mencionar el concepto de modelos grandes.

¿Solo ha pasado más de medio año y GPT ya está “en el fondo”?

Por eso, el autor quería ver cómo era el ranking GPT.

El tiempo de prueba es diferente El equipo de prueba es diferente GPT-4 ocupa el undécimo lugar

A juzgar por la información mostrada en la imagen del artículo anterior, esta clasificación pertenece a la lista C.

C-List, el nombre completo de C-Global Large Model Comprehensive Examination Test List, es un conjunto de evaluación de exámenes integrales de modelo de idioma chino construido conjuntamente por la Universidad de Tsinghua, la Universidad Jiao Tong de Shanghai y la Universidad de Edimburgo.

Se informa que el conjunto cubre cuatro direcciones principales: humanidades, ciencias sociales, ciencias e ingeniería, y otras especialidades, incluidas 52 materias, que cubren múltiples campos de conocimiento como cálculo y álgebra lineal. Hay un total de 13.948 preguntas de conocimiento y razonamiento chino, con dificultad dividida en cuatro niveles de prueba: escuela secundaria, pregrado, posgrado y vocacional.

Entonces el autor revisó la última lista C.

La clasificación más reciente de la Lista C es consistente con la clasificación que se muestra en la imagen anterior: entre los 11 modelos grandes principales, el GPT-4 ocupa el último lugar.

Según la lista C, estos resultados representan pruebas de tiro cero (aprendizaje de tiro cero) o pruebas de tiro bajo (aprendizaje de tiro bajo), pero tiro corto no es necesariamente mejor que tiro cero.

C- dijo que en sus pruebas se encontró que muchos modelos después del ajuste fino de las instrucciones eran mejores con disparo cero. Muchos de los modelos probados tienen resultados tanto de disparo cero como de pocos disparos, y la clasificación muestra la configuración con la mejor puntuación promedio general.

La lista C también indica que los nombres de modelos grandes con "*" indican que los resultados del modelo fueron probados por el equipo C, mientras que otros resultados se obtuvieron a través de envíos de usuarios.

Además, el autor también notó que el tiempo para enviar los resultados de las pruebas para estos modelos grandes varía mucho.

El tiempo de envío de los resultados de la prueba para GPT-4 es el 15 de mayo, mientras que Yuntianshu, que ocupa el primer lugar, lo envía el 31 de agosto; Galaxy, que ocupa el segundo lugar, lo envía el 23 de agosto; y YaYi, que ocupa el tercer lugar, envía sus resultados el 31 de agosto. para el 4 de septiembre.

Además, entre los 16 modelos grandes principales, solo GPT-4 tiene "*" agregado a su nombre y fue probado por el equipo C.

Entonces el autor volvió a comprobar la lista C completa.

La última lista C incluye un total de 66 clasificaciones de modelos grandes.

Entre ellos, solo hay 11 con "*" en sus nombres, que son probados por el equipo C, y la fecha de presentación para la prueba fue el 15 de mayo.

Para estos grandes modelos probados por el equipo C, GPT-4 de OpenAI ocupó el puesto 11, ChatGPT ocupó el puesto 36, ChatGLM-6B de Tsinghua Zhipu AI ocupó el puesto 60 y MOSS de Fudan ocupó el puesto 6. catorce.

Aunque estas clasificaciones pueden mostrar el rápido impulso de desarrollo de los grandes modelos nacionales, el autor cree que, después de todo, no son probados por el mismo equipo al mismo tiempo, lo que no es suficiente para demostrar plenamente quién es más fuerte y quién más débil entre ellos. Estos modelos grandes.

Esto es como una clase de estudiantes que tienen diferentes tiempos de prueba y responden diferentes trabajos. ¿Cómo podemos confiar en el puntaje de cada estudiante para comparar?

**¿Qué dicen los grandes desarrolladores de modelos? **Muchas personas dijeron que superaron ChatGPT en chino y otras habilidades

Recientemente, el círculo de modelos grandes ha estado bastante animado.

Además, los productos de modelos grandes de ocho empresas, incluidas Baidu y Byte, han pasado el registro de las "Medidas provisionales para la gestión de servicios de inteligencia artificial generativa" y pueden lanzarse oficialmente en línea para brindar servicios al público. Otras empresas han lanzado sucesivamente sus propios productos de modelos grandes.

Entonces, ¿cómo presentan sus productos los desarrolladores de estos grandes modelos?

El 7 de julio, en el foro de la Conferencia Mundial de Inteligencia Artificial de 2023 "Oportunidades y riesgos para el desarrollo de la industria general de la inteligencia artificial en la era de los grandes modelos", Qiu Xipeng, profesor de la Facultad de Ciencias y Tecnología de la Computación de la Universidad de Fudan y director de El sistema MOSS dijo que el modelo de lenguaje conversacional a gran escala de Fudan, MOSS, se ha estado iterando continuamente después de su lanzamiento en febrero de este año: "** El último MOSS ha podido superar a ChatGPT ** en capacidades chinas".

A finales de julio, NetEase Youdao lanzó un gran modelo de traducción. El director ejecutivo de NetEase Youdao, Zhou Feng, declaró públicamente que en las pruebas internas, en la dirección de traducción chino-inglés, superó las capacidades de traducción de ChatGPT y superó el nivel de Google Translate. **

A finales de agosto, en la Cumbre de Verano del Foro Yabuli de 2023, Liu Qingfeng, fundador y presidente de iFlytek, pronunció un discurso y dijo: “** Las capacidades de generación y finalización de código del modelo iFlytek Spark han superado a ChatGPT, y otras capacidades. poniéndose al día rápidamente. **La lógica, los algoritmos, los sistemas de métodos y los preparativos de datos para la capacidad del código actual están listos, y todo lo que se necesita es tiempo y potencia de cálculo”.

SenseTime afirmó en un comunicado de prensa reciente que en agosto de este año, el nuevo modelo internlm-123b completó su entrenamiento y el número de parámetros aumentó a 123 mil millones. **En los 51 conjuntos de evaluación conocidos a nivel mundial con un total de 300.000 preguntas, los resultados generales de las pruebas ocuparon el segundo lugar en el mundo, superando a modelos como gpt-3.5-turbo y el recientemente lanzado llama2-70b de Meta Company. **

Según Shangtang, **internlm-123 ocupó el primer lugar en 12 evaluaciones importantes. Entre ellos, el puntaje de agi en la prueba integral del conjunto de evaluación es 57.8, superando a gpt-4 y ocupando el primer lugar; el puntaje de evaluación de **knowledge commonsenseqa es 88.5, ocupando el primer lugar; puntajes de internlm-123b en las cinco evaluaciones de comprensión lectora. encabeza la lista.

Además, ocupó el primer lugar en las cinco evaluaciones de razonamiento.

A principios de este mes, Zuoyebang lanzó oficialmente su modelo Galaxy de desarrollo propio.

Zuoyebang dijo que el modelo Galaxy ha logrado resultados en los dos puntos de referencia autorizados de evaluación de modelos de lenguaje grande, C- y CMMLU. Los datos muestran que Zuoyebang Galaxy Big Model ocupa el primer lugar en C- con una puntuación promedio de 73,7 puntos; al mismo tiempo, se ubica en la lista CMMLU en las evaluaciones Five-shot y Zero-shot con puntuaciones promedio de 74,03 puntos y 73,85 puntos respectivamente. En primer lugar, se convirtió en el primer modelo educativo importante en ocupar el primer lugar en puntuación promedio en las dos listas autorizadas mencionadas anteriormente.

Ayer, Baichuan Intelligent anunció el Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat oficial de código abierto optimizado y su versión cuantificada de 4 bits.

Wang Xiaochuan, fundador y director ejecutivo de Baichuan Intelligence, dijo que el rendimiento real del modelo de chat perfeccionado en el campo chino, el entorno de preguntas y respuestas o el entorno de resumen ha superado el de los modelos de código cerrado como ChatGPT-3.5. **

Hoy, en la Conferencia Global de Ecología Digital Tencent 2023, Tencent lanzó oficialmente el modelo grande Hunyuan. Jiang Jie, vicepresidente del Grupo Tencent, dijo que la capacidad del idioma chino del modelo grande **Tencent Hunyuan ha superado el GPT-3.5. **

Además de las presentaciones de estos desarrolladores, algunos medios y equipos también evaluaron un modelo grande.

A principios de agosto, el equipo de Shen Yang, profesor y supervisor de doctorado en la Escuela de Periodismo y Comunicación de la Universidad de Tsinghua, publicó el "Informe de evaluación integral del desempeño de grandes modelos lingüísticos". El informe muestra que **Baidu Wenxinyiyan tiene una puntuación integral en 20 indicadores en tres dimensiones principales que lidera el país y es mejor que ChatGPT. Entre ellos, la comprensión semántica china ocupa un lugar destacado y algunas habilidades chinas son mejores que GPT-4. **

A mediados de agosto, algunos medios informaron que el 11 de agosto, el modelo grande MiLM-6B de Xiaomi apareció en las listas de evaluación de modelos grandes C- y CMMLU. A partir de ahora, MiLM-6B ocupa el décimo lugar en la lista general C, el primero en la misma magnitud de parámetro y el primero en los modelos grandes chinos CMMLU.

El 12 de agosto, la Universidad de Tianjin publicó el "Informe de evaluación del modelo grande". El informe muestra que el rendimiento integral de **GPT-4 y Baidu Wenxinyiyan está significativamente por delante de otros modelos, y sus puntuaciones no son muy diferentes y están al mismo nivel. Wen Xinyiyan superó a ChatGPT en la mayoría de las tareas chinas y gradualmente redujo la brecha con GPT-4. **

A finales de agosto, algunos medios informaron que el modelo de lenguaje grande desarrollado por Kuaishou, “KwaiYii”, había comenzado a realizar pruebas internas. En las últimas clasificaciones de CMMLU orientadas a China, KwaiYii-13B, la versión 13B de KwaiYi, ocupó el primer lugar tanto en cinco disparos como en cero. Es fuerte en humanidades, temas específicos de chino, etc., con una puntuación promedio de más de 61 puntos.

De lo anterior se puede ver que, aunque estos modelos grandes afirman estar en la cima de un determinado ranking o superar a ChatGPT en ciertos aspectos, la mayoría de ellos tienen un buen desempeño en algunos campos específicos.

Además, algunas puntuaciones integrales superan GPT-3,5 o GPT-4, pero la prueba GPT se suspendió en mayo ¿Quién puede garantizar que GPT no haya mejorado en los últimos tres meses?

Situación de OpenAI

Según un informe de UBS Group de febrero, solo dos meses después del lanzamiento de ChatGPT, sus usuarios activos mensuales habían superado los 100 millones a finales de enero de 2023, lo que la convierte en la aplicación de consumo de más rápido crecimiento de la historia.

Pero el desarrollo de ChatGPT no es tan sencillo.

En julio de este año, muchos usuarios de GPT-4 se quejaron de que, en comparación con las capacidades de razonamiento anteriores, el rendimiento de GPT-4 había disminuido.

Algunos usuarios señalaron problemas en Twitter y el foro de desarrolladores en línea OpenAI, centrándose en una lógica más débil, más respuestas incorrectas, incapacidad para realizar un seguimiento de la información proporcionada, dificultad para seguir instrucciones, olvidarse de agregar paréntesis en el código de software básico y solo recordar el consejos más recientes, etc.

En agosto, otro informe afirmó que OpenAi podría estar en una posible crisis financiera y declararse en quiebra a finales de 2024.

El informe afirma que OpenAI cuesta aproximadamente 700.000 dólares al día sólo para ejecutar su servicio de inteligencia artificial ChatGPT. Actualmente, la empresa está intentando ser rentable con GPT-3.5 y GPT-4, pero aún no ha generado suficientes ingresos para alcanzar el punto de equilibrio.

Sin embargo, OpenAI también puede tener nuevas oportunidades.

Recientemente, OpenAI anunció que celebrará su primera conferencia de desarrolladores en noviembre.

Aunque OpenAI declaró que no lanzará GPT-5, OpenAI dijo que cientos de desarrolladores de todo el mundo trabajarán con el equipo de OpenAI para obtener una vista previa de "nuevas herramientas" con anticipación e intercambiar ideas.

Esto puede significar que ChatGPT ha logrado nuevos avances.

Según The Paper, el 30 de agosto, una persona familiarizada con el asunto reveló que se espera que OpenAI logre más de mil millones de dólares en ingresos en los próximos 12 meses mediante la venta de software de inteligencia artificial y la potencia informática para impulsar su operación.

Hoy, otro informe de los medios afirmó que Morgan Stanley lanzará un chatbot de inteligencia artificial generativa desarrollado conjuntamente con OpenAI a finales de este mes.

Las personas que tratan con banqueros de Morgan Stanley son ricas o ricas. Si este próximo chatbot de inteligencia artificial generativa puede brindar una experiencia diferente a los clientes de Morgan Stanley, puede ser una gran ganancia para OpenAI.

La llegada de la era de la inteligencia artificial se ha vuelto imparable. En cuanto a quién es mejor, no puedes decirlo tú mismo, debes dejar que los usuarios lo califiquen. También creemos que los modelos nacionales grandes definitivamente alcanzarán a ChatGPT en términos de capacidades específicas y capacidades integrales.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)