Plus de six mois se sont écoulés et le classement de ChatGPT est presque au bas du classement.

2023-09-09 03:11:22

Auteur : Technologie Sanyan

Aujourd'hui, je suis tombé par hasard sur une photo.

D’après l’image, le GPT-4 d’OpenAI s’est classé dernier parmi les 11 grands modèles (le premier porte le numéro 0). Certains internautes ont ajouté les mots « GPT4 : comment puis-je me plaindre de mes griefs ? »

Cela rend les gens curieux. Au début de cette année, après que ChatGPT soit devenu populaire, d'autres entreprises ont commencé à mentionner le concept de grands modèles.

Cela ne fait que plus de six mois, et GPT est déjà « au fond » ?

Par conséquent, l’auteur voulait voir à quoi ressemblait le classement GPT.

Le temps de test est différent L'équipe de test est différente GPT-4 se classe onzième

À en juger par les informations affichées sur la photo dans l'article précédent, ce classement est issu de la liste C.

C-List, le nom complet de C-Global Large Model Comprehensive Examination Test List, est une suite d'évaluation d'examen complet de modèle en langue chinoise construite conjointement par l'Université Tsinghua, l'Université Jiao Tong de Shanghai et l'Université d'Édimbourg.

Il est rapporté que la suite couvre quatre domaines principaux : les sciences humaines, les sciences sociales, les sciences et l'ingénierie, ainsi que d'autres disciplines, comprenant 52 matières, couvrant plusieurs domaines de connaissances tels que le calcul et l'algèbre linéaire. Il y a un total de 13 948 questions de connaissances et de raisonnement chinois, avec des difficultés divisées en quatre niveaux de test : collège, premier cycle, cycles supérieurs et professionnel.

L’auteur a donc vérifié la dernière liste C.

Le dernier classement de la liste C est cohérent avec le classement présenté dans l'image précédente : parmi les 11 meilleurs grands modèles, le GPT-4 se classe dernier.

Selon la liste C, ces résultats représentent des tests zéro-shot (apprentissage zéro-shot) ou quelques-shots (apprentissage peu-shot), mais quelques-shots ne sont pas nécessairement meilleurs que zéro-shot.

C- a déclaré que lors de ses tests, il avait été constaté que de nombreux modèles, après un réglage précis des instructions, étaient meilleurs sous le tir zéro. De nombreux modèles testés ont des résultats à la fois sans tir et avec quelques tirs, et le classement montre le réglage avec le meilleur score moyen global.

La liste C indique également que les noms des grands modèles avec « * » indiquent que les résultats du modèle ont été testés par l'équipe C, tandis que d'autres résultats ont été obtenus grâce aux soumissions des utilisateurs.

De plus, l’auteur a également remarqué que les délais de soumission des résultats des tests pour ces grands modèles varient considérablement.

L'heure de soumission des résultats du test pour GPT-4 est le 15 mai, tandis que Yuntianshu, qui se classe premier, soumet ses résultats le 31 août ; Galaxy, qui se classe deuxième, les soumet le 23 août ; et YaYi, qui se classe troisième, soumet ses résultats le 31 août. pour le 4 septembre.

De plus, parmi les 16 meilleurs grands modèles, seul le GPT-4 a "*" ajouté à son nom et a été testé par l'équipe C.

L’auteur a donc vérifié à nouveau la liste C complète.

La dernière C-list comprend un total de 66 classements de grands modèles.

Parmi eux, il n'y en a que 11 avec "*" dans leur nom, qui sont testés par l'équipe C, et la date de soumission pour les tests était le 15 mai.

Pour ces grands modèles testés par l'équipe C, le GPT-4 d'OpenAI s'est classé 11e, ChatGPT 36e, ChatGLM-6B de Tsinghua Zhipu AI 60e et MOSS de Fudan 6e quatorze.

Bien que ces classements puissent montrer la dynamique de développement rapide des grands modèles nationaux, l'auteur estime qu'après tout, ils ne sont pas testés par la même équipe en même temps, ce qui n'est pas suffisant pour prouver pleinement qui est le plus fort et qui est le plus faible parmi ces grands modèles.

C'est comme une classe d'élèves qui ont chacun des horaires de test différents et répondent à des épreuves différentes. Comment pouvons-nous nous fier aux résultats de chaque élève pour comparer ?

Que disent les grands développeurs de modèles ? De nombreuses personnes ont déclaré avoir surpassé ChatGPT en chinois et dans d'autres capacités

Ces derniers temps, le cercle des grands modèles est assez animé.

En outre, les produits grands modèles de huit sociétés, dont Baidu et Byte, ont passé avec succès l'enregistrement des « Mesures provisoires pour la gestion des services d'intelligence artificielle générative » et peuvent être officiellement lancés en ligne pour fournir des services au public. D'autres sociétés ont successivement lancé leurs propres produits grand modèle.

Alors, comment les développeurs de ces grands modèles présentent-ils leurs produits ?

Le 7 juillet, lors du forum de la Conférence mondiale sur l'intelligence artificielle 2023 « Opportunités et risques pour le développement de l'industrie générale de l'intelligence artificielle à l'ère des grands modèles », Qiu Xipeng, professeur à l'École d'informatique et de technologie de l'Université de Fudan et directeur de le système MOSS, a déclaré que le modèle de langage conversationnel à grande échelle de Fudan MOSS Après avoir été publié en février de cette année, il n'a cessé de répéter : "Le dernier MOSS a été capable de surpasser ChatGPT en termes de capacités chinoises."

Fin juillet, NetEase Youdao a lancé un vaste modèle de traduction. Le PDG de NetEase Youdao, Zhou Feng, a déclaré publiquement que lors de tests internes, dans le sens de la traduction chinois-anglais, il avait dépassé les capacités de traduction de ChatGPT et dépassé le niveau de Google Translate. **

Fin août, lors du sommet d'été du forum Yabuli 2023, Liu Qingfeng, fondateur et président d'iFlytek, a prononcé un discours et a déclaré : « **Les capacités de génération et de complétion de code du modèle iFlytek Spark ont dépassé ChatGPT, et d'autres. "La logique, les algorithmes, les systèmes de méthodes et les préparations de données pour la capacité de code actuelle sont prêts, et tout ce qu'il faut, c'est du temps et de la puissance de calcul."

SenseTime a déclaré dans un récent communiqué de presse qu'en août de cette année, le nouveau modèle internlm-123b avait terminé sa formation et que le nombre de paramètres était passé à 123 milliards. **Sur les 51 ensembles d'évaluation bien connus au monde avec un total de 300 000 questions, les résultats globaux des tests se sont classés au deuxième rang mondial, surpassant des modèles tels que gpt-3.5-turbo et le nouveau lama2-70b de Meta Company. **

Selon Shangtang, **internlm-123 s'est classé premier dans 12 évaluations majeures. Parmi eux, le score agi dans le test complet de l'ensemble d'évaluation est de 57,8, dépassant gpt-4 et se classant premier ; le score d'évaluation de **knowledge commonsenseqa est de 88,5, se classant premier ; les scores internlm-123b dans les cinq évaluations de compréhension écrite. Tous en tête de liste.

De plus, il s'est classé premier dans les cinq évaluations du raisonnement.

Plus tôt ce mois-ci, Zuoyebang a officiellement lancé son modèle Galaxy auto-développé.

Zuoyebang a déclaré que le modèle Galaxy a obtenu des résultats sur les deux grands critères d'évaluation de modèles de langage faisant autorité, C- et CMMLU. Les données montrent que Zuoyebang Galaxy Big Model se classe premier en C- avec un score moyen de 73,7 points ; en même temps, il se classe dans la liste CMMLU des évaluations Five-shot et Zero-shot avec des scores moyens de 74,03 points et 73,85 points respectivement. Premièrement, il est devenu le premier modèle éducatif majeur à se classer premier en termes de score moyen sur les deux listes faisant autorité mentionnées ci-dessus.

Hier, Baichuan Intelligent a annoncé les versions open source officielles optimisées Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat et leur version quantifiée 4 bits.

Wang Xiaochuan, fondateur et PDG de Baichuan Intelligence, a déclaré que dans le domaine chinois, les performances réelles du modèle Chat affiné dans l'environnement de questions-réponses ou dans l'environnement de résumé ont dépassé celles des modèles fermés tels que ChatGPT-3.5. **

Aujourd'hui, lors de la conférence Tencent Global Digital Ecology 2023, Tencent a officiellement lancé le grand modèle Hunyuan. Jiang Jie, vice-président du groupe Tencent, a déclaré que la capacité en langue chinoise du grand modèle ** Tencent Hunyuan a dépassé GPT-3.5. **

En plus des auto-présentations de ces développeurs, certains médias et équipes ont également évalué un grand modèle.

Début août, l'équipe de Shen Yang, professeur et directeur de doctorat à l'École de journalisme et de communication de l'Université Tsinghua, a publié le « Rapport complet d'évaluation des performances des grands modèles linguistiques ». Le rapport montre que **le score global de Baidu Wenxinyiyan dans 20 indicateurs dans trois dimensions principales est en tête du pays et est meilleur que ChatGPT. Parmi eux, la compréhension sémantique chinoise occupe une place élevée et certaines capacités chinoises sont meilleures que GPT-4. **

À la mi-août, certains médias ont rapporté que le 11 août, le grand modèle MiLM-6B de Xiaomi figurait sur les listes d'évaluation des grands modèles C et CMMLU. À l'heure actuelle, le MiLM-6B se classe 10e dans la liste C-globale, 1er pour la même magnitude de paramètres et 1er dans les grands modèles chinois CMMLU.

Le 12 août, l'Université de Tianjin a publié le « Rapport d'évaluation des grands modèles ». Le rapport montre que les performances globales de **GPT-4 et Baidu Wenxinyiyan sont nettement en avance sur les autres modèles, et que leurs scores ne sont pas très différents et sont au même niveau. Wen Xinyiyan a surpassé ChatGPT dans la plupart des tâches chinoises et a progressivement réduit l'écart avec GPT-4. **

Fin août, certains médias ont rapporté que le grand modèle de langage « KwaiYii » développé par Kuaishou avait commencé ses tests internes. Dans le dernier classement CMMLU axé sur le chinois, KwaiYii-13B, la version 13B de KwaiYi, s'est classé premier dans les catégories à cinq et à zéro. Il est fort en sciences humaines, dans les sujets spécifiques au chinois, etc., avec un score moyen de plus de 61 points.

Il ressort de ce qui précède que, bien que ces grands modèles prétendent être en tête d'un certain classement ou surpasser ChatGPT dans certains aspects, la plupart d'entre eux fonctionnent bien dans certains domaines spécifiques.

De plus, certains scores globaux dépassent GPT-3.5 ou GPT-4, mais le test GPT a été arrêté en mai. Qui peut garantir que le GPT ne s'est pas amélioré au cours des trois derniers mois ?

Situation d'OpenAI

Selon un rapport du groupe UBS publié en février, deux mois seulement après le lancement de ChatGPT, ses utilisateurs actifs mensuels dépassaient les 100 millions fin janvier 2023, ce qui en fait l'application grand public connaissant la croissance la plus rapide de l'histoire.

Mais le développement de ChatGPT n’est pas si fluide.

En juillet de cette année, de nombreux utilisateurs de GPT-4 se sont plaints du fait que les performances de GPT-4 avaient diminué par rapport aux capacités de raisonnement précédentes.

Certains utilisateurs ont signalé des problèmes sur Twitter et sur le forum des développeurs en ligne OpenAI, se concentrant sur une logique plus faible, des réponses plus incorrectes, une incapacité à suivre les informations fournies, des difficultés à suivre les instructions, l'oubli d'ajouter des parenthèses dans le code logiciel de base et la mémorisation uniquement du conseils les plus récents, etc.

En août, un autre rapport indiquait qu'OpenAi pourrait être en crise financière potentielle et pourrait faire faillite d'ici la fin de 2024.

Le rapport indique qu'OpenAI coûte environ 700 000 dollars par jour rien que pour faire fonctionner son service d'intelligence artificielle ChatGPT. Actuellement, l'entreprise tente de devenir rentable avec GPT-3.5 et GPT-4, mais n'a pas encore généré suffisamment de revenus pour atteindre le seuil de rentabilité.

Cependant, OpenAI peut également offrir de nouvelles opportunités.

Récemment, OpenAI a annoncé qu'elle tiendrait sa première conférence des développeurs en novembre.

Bien qu'OpenAI ait déclaré qu'il ne publierait pas GPT-5, OpenAI a déclaré que des centaines de développeurs du monde entier travailleraient avec l'équipe OpenAI pour prévisualiser les « nouveaux outils » à l'avance et échanger des idées.

Cela peut signifier que ChatGPT a fait de nouveaux progrès.

Selon The Paper, le 30 août, une personne proche du dossier a révélé qu'OpenAI devrait générer plus d'un milliard de dollars de revenus au cours des 12 prochains mois en vendant des logiciels d'IA et la puissance de calcul nécessaire à son fonctionnement.

Aujourd'hui, un autre média a déclaré que Morgan Stanley lancerait un chatbot d'intelligence artificielle générative développé conjointement avec OpenAI plus tard ce mois-ci.

Les personnes qui traitent avec les banquiers de Morgan Stanley sont soit riches, soit fortunées. Si ce prochain chatbot d’intelligence artificielle générative peut apporter une expérience différente aux clients de Morgan Stanley, cela pourrait constituer un énorme gain pour OpenAI.

L’arrivée de l’ère de l’intelligence artificielle est devenue imparable. Quant à savoir qui est le meilleur, vous ne pouvez pas simplement vous le dire, vous devez laisser les utilisateurs l’évaluer. Nous pensons également que les grands modèles nationaux rattraperont certainement ChatGPT en termes de capacités spécifiques et de capacités globales.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

金色财经_

Sujets populairesAfficher plus
#Funny Moments In Crypto
19k Popularité
#My Pick In RWA
29k Popularité
#Double Rewards With GUSD
57k Popularité
#Crypto Market Rebound
272k Popularité
#Gate Alpha New Listings
38k Popularité

Épingler

Plus de six mois se sont écoulés et le classement de ChatGPT est presque au bas du classement.

Le temps de test est différent L'équipe de test est différente GPT-4 se classe onzième

**Que disent les grands développeurs de modèles ? **De nombreuses personnes ont déclaré avoir surpassé ChatGPT en chinois et dans d'autres capacités

Situation d'OpenAI

Que disent les grands développeurs de modèles ? De nombreuses personnes ont déclaré avoir surpassé ChatGPT en chinois et dans d'autres capacités