Mais de meio ano se passou e a classificação do ChatGPT está quase no último lugar.

2023-09-09 03:11:22

Autor: Tecnologia Sanyan

Hoje, acidentalmente me deparei com uma foto.

De acordo com a imagem, o GPT-4 da OpenAI ficou em último lugar entre os 11 modelos grandes (o primeiro tem o número 0). Alguns internautas adicionaram as palavras “GPT4: Como posso reclamar das minhas queixas?”

Isso deixa as pessoas curiosas: no início deste ano, depois que o ChatGPT se popularizou, outras empresas começaram a mencionar o conceito de modelos grandes.

Faz apenas mais de meio ano e o GPT já está “no fundo”?

Portanto, o autor queria ver como era o ranking do GPT.

O tempo de teste é diferente A equipe de teste é diferente GPT-4 ocupa o décimo primeiro lugar

A julgar pelas informações exibidas na imagem do artigo anterior, esta classificação é da lista C.

C-List, o nome completo da C-Global Large Model Comprehensive Examination Test List, é um conjunto abrangente de avaliação de exames de modelo de língua chinesa construído em conjunto pela Universidade de Tsinghua, pela Universidade Jiao Tong de Xangai e pela Universidade de Edimburgo.

É relatado que o conjunto abrange quatro áreas principais: humanidades, ciências sociais, ciências e engenharia, e outras especialidades, incluindo 52 disciplinas, cobrindo vários campos do conhecimento, como cálculo e álgebra linear. Há um total de 13.948 questões de conhecimento e raciocínio chinês, com dificuldade dividida em quatro níveis de teste: ensino médio, graduação, pós-graduação e profissionalizante.

Então o autor verificou a última lista C.

A última classificação da lista C é consistente com a classificação mostrada na imagem anterior: entre os 11 principais modelos de grande porte, o GPT-4 ocupa o último lugar.

De acordo com a lista C, esses resultados representam testes de tiro zero (aprendizado de tiro zero) ou de poucos tiros (aprendizado de poucos tiros), mas poucos tiros não são necessariamente melhores do que tiro zero.

C- disse que em seus testes foi descoberto que muitos modelos após o ajuste fino das instruções eram melhores sob disparo zero. Muitos dos modelos testados apresentam resultados de zero e poucos disparos, e a classificação mostra a configuração com a melhor pontuação média geral.

A lista C também indica que os nomes de modelos grandes com "*" indicam que os resultados do modelo foram testados pela equipe C, enquanto outros resultados foram obtidos por meio de envios de usuários.

Além disso, o autor também percebeu que o tempo de envio dos resultados dos testes para esses modelos grandes varia muito.

O prazo para envio dos resultados do teste para GPT-4 é 15 de maio, enquanto Yuntianshu, que ocupa o primeiro lugar, envia em 31 de agosto; Galaxy, que ocupa o segundo lugar, envia em 23 de agosto; e YaYi, que ocupa o terceiro lugar, envia seus resultados em 31 de agosto. para 4 de setembro.

Além disso, entre os 16 principais modelos grandes, apenas o GPT-4 tem "*" adicionado ao seu nome e foi testado pela equipe C.

Portanto, o autor verificou novamente a lista C completa.

A última lista C inclui um total de 66 classificações de grandes modelos.

Entre eles, há apenas 11 com “*” no nome, que são testados pela equipe C, e o horário de envio para teste foi no dia 15 de maio.

Para esses grandes modelos testados pela equipe C, o GPT-4 da OpenAI ficou em 11º, o ChatGPT ficou em 36º, o ChatGLM-6B de Tsinghua Zhipu AI ficou em 60º e o MOSS de Fudan ficou em 6º.

Embora esses rankings possam mostrar o rápido impulso de desenvolvimento dos grandes modelos nacionais, o autor acredita que, afinal, eles não são testados pela mesma equipe ao mesmo tempo, o que não é suficiente para comprovar plenamente quem é mais forte e quem é mais fraco entre esses grandes modelos.

É como uma turma de alunos em que cada um tem tempos de teste diferentes e responde a trabalhos diferentes. Como podemos confiar na pontuação de cada aluno para comparar?

O que dizem os grandes desenvolvedores de modelos? Muitas pessoas disseram que superaram o ChatGPT em chinês e outras habilidades

Recentemente, o círculo de grandes modelos tem estado bastante animado.

Além disso, os grandes modelos de produtos de oito empresas, incluindo Baidu e Byte, foram aprovados no registro das "Medidas Provisórias para a Gestão de Serviços de Inteligência Artificial Gerativa" e podem ser lançados oficialmente online para fornecer serviços ao público. Outras empresas lançaram sucessivamente seus próprios produtos de modelos grandes.

Então, como os desenvolvedores desses grandes modelos apresentam seus produtos?

Em 7 de julho, no fórum da Conferência Mundial de Inteligência Artificial de 2023 "Oportunidades e riscos para o desenvolvimento da indústria geral de inteligência artificial na era dos grandes modelos", Qiu Xipeng, professor da Escola de Ciência da Computação e Tecnologia da Universidade Fudan e chefe de o sistema MOSS, disse que o modelo de linguagem conversacional em grande escala da Fudan, MOSS, depois de ser lançado em fevereiro deste ano, tem iterado continuamente: "O MOSS mais recente foi capaz de superar o ChatGPT em capacidades chinesas."

No final de julho, NetEase Youdao lançou um grande modelo de tradução, o CEO da NetEase Youdao, Zhou Feng, declarou publicamente que em testes internos, na direção da tradução chinês-inglês, ultrapassou as capacidades de tradução do ChatGPT e ultrapassou o nível do Google Translate. **

No final de agosto, no Yabuli Forum Summer Summit de 2023, Liu Qingfeng, fundador e presidente da iFlytek, fez um discurso e disse: “**Os recursos de geração e conclusão de código do modelo iFlytek Spark ultrapassaram o ChatGPT e outros. alcançando rapidamente. **A lógica, os algoritmos, os sistemas de métodos e a preparação de dados para a capacidade de código atual estão prontos, e tudo o que é necessário é tempo e poder de computação.”

SenseTime afirmou em um comunicado de imprensa recente que em agosto deste ano, o novo modelo internlm-123b completou o treinamento e o número de parâmetros aumentou para 123 bilhões. **Nos 51 conjuntos de avaliação globais bem conhecidos, com um total de 300.000 perguntas, os resultados gerais dos testes ficaram em segundo lugar no mundo, superando modelos como o gpt-3.5-turbo e o recém-lançado llama2-70b da Meta Company. **

De acordo com Shangtang, **internlm-123 ficou em primeiro lugar em 12 avaliações principais. Entre eles, a pontuação agi no teste abrangente do conjunto de avaliação é 57,8, ultrapassando gpt-4 e ficando em primeiro lugar; a pontuação de avaliação de **knowledge commonsenseqa é 88,5, ficando em primeiro lugar; pontuações internlm-123b nas cinco avaliações de compreensão de leitura Todas no topo da lista.

Além disso, ficou em primeiro lugar nas cinco avaliações de raciocínio.

No início deste mês, Zuoyebang lançou oficialmente seu modelo Galaxy desenvolvido por ela mesma.

Zuoyebang disse que o modelo Galaxy alcançou resultados nos dois benchmarks oficiais de avaliação de modelos de linguagem grande, C- e CMMLU. Os dados mostram que Zuoyebang Galaxy Big Model ocupa o primeiro lugar em C- com uma pontuação média de 73,7 pontos; ao mesmo tempo, classifica-se na lista CMMLU de avaliações Five-shot e Zero-shot com pontuações médias de 74,03 pontos e 73,85 pontos, respectivamente. Primeiro, tornou-se o primeiro grande modelo educacional a ocupar o primeiro lugar na pontuação média nas duas listas oficiais mencionadas acima.

Ontem, Baichuan Intelligent anunciou o Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat de código aberto oficial e sua versão quantizada de 4 bits.

Wang Xiaochuan, fundador e CEO da Baichuan Intelligence, disse que no campo chinês, o desempenho real do modelo de bate-papo ajustado no ambiente de perguntas e respostas ou no ambiente de resumo excedeu o desempenho dos modelos de código fechado, como o ChatGPT-3.5. **

Hoje, na Conferência Global de Ecologia Digital da Tencent de 2023, a Tencent lançou oficialmente o grande modelo Hunyuan. Jiang Jie, vice-presidente do Grupo Tencent, disse que a capacidade do idioma chinês do grande modelo **Tencent Hunyuan excedeu o GPT-3.5. **

Além das apresentações desses desenvolvedores, alguns meios de comunicação e equipes também avaliaram um modelo grande.

No início de agosto, a equipe de Shen Yang, professor e supervisor de doutorado da Escola de Jornalismo e Comunicação da Universidade Tsinghua, lançou o "Relatório Abrangente de Avaliação de Desempenho de Grandes Modelos de Linguagem". O relatório mostra que a pontuação abrangente de **Baidu Wenxinyiyan em 20 indicadores em três dimensões principais lidera o país e é melhor que o ChatGPT.Entre eles, a compreensão semântica chinesa tem uma classificação elevada e algumas habilidades chinesas são melhores que o GPT-4. **

Em meados de agosto, alguns meios de comunicação relataram que em 11 de agosto, o grande modelo MiLM-6B da Xiaomi apareceu nas listas de avaliação de modelos grandes C- e CMMLU. A partir de agora, o MiLM-6B ocupa o 10º lugar na lista C-geral, o 1º na mesma magnitude de parâmetro e o 1º nos grandes modelos chineses CMMLU.

Em 12 de agosto, a Universidade de Tianjin divulgou o "Relatório de Avaliação de Grandes Modelos". O relatório mostra que o desempenho abrangente do **GPT-4 e do Baidu Wenxinyiyan está significativamente à frente de outros modelos, e suas pontuações não são muito diferentes e estão no mesmo nível. Wen Xinyiyan ultrapassou o ChatGPT na maioria das tarefas chinesas e gradualmente reduziu a diferença com o GPT-4. **

No final de agosto, alguns meios de comunicação relataram que o grande modelo de linguagem desenvolvido por Kuaishou, “KwaiYii”, havia iniciado testes internos. Nas últimas classificações orientadas para o chinês do CMMLU, o KwaiYii-13B, a versão 13B do KwaiYi, ficou em primeiro lugar tanto no cinco tiro quanto no tiro zero. É forte em humanidades, tópicos específicos chineses, etc., com uma pontuação média de mais de 61 pontos.

Pode-se observar pelo exposto que embora esses grandes modelos afirmem estar no topo de uma determinada classificação ou ultrapassar o ChatGPT em determinados aspectos, a maioria deles tem um bom desempenho em algumas áreas específicas.

Além disso, algumas pontuações abrangentes excedem GPT-3,5 ou GPT-4, mas o teste GPT foi interrompido em maio.Quem pode garantir que o GPT não melhorou nos últimos três meses?

Situação da OpenAI

De acordo com um relatório do Grupo UBS de fevereiro, apenas dois meses após o lançamento do ChatGPT, seus usuários ativos mensais ultrapassaram 100 milhões no final de janeiro de 2023, tornando-o o aplicativo de consumo de crescimento mais rápido da história.

Mas o desenvolvimento do ChatGPT não é tão tranquilo.

Em julho deste ano, muitos usuários do GPT-4 reclamaram que, em comparação com as capacidades de raciocínio anteriores, o desempenho do GPT-4 havia diminuído.

Alguns usuários apontaram problemas no Twitter e no fórum online de desenvolvedores OpenAI, focando em lógica mais fraca, mais respostas incorretas, incapacidade de acompanhar as informações fornecidas, dificuldade em seguir instruções, esquecer de adicionar parênteses no código básico do software e lembrar apenas o dicas mais recentes, etc.

Em agosto, outro relatório afirmou que a OpenAi pode estar em potencial crise financeira e falir até o final de 2024.

O relatório afirmou que o OpenAI custa aproximadamente US$ 700.000 por dia apenas para executar seu serviço de inteligência artificial ChatGPT. Atualmente, a empresa está tentando se tornar lucrativa com GPT-3.5 e GPT-4, mas ainda não conseguiu gerar receita suficiente para atingir o ponto de equilíbrio.

No entanto, a OpenAI também pode ter novas oportunidades.

Recentemente, a OpenAI anunciou que realizará sua primeira conferência de desenvolvedores em novembro.

Embora a OpenAI tenha declarado que não lançará o GPT-5, a OpenAI disse que centenas de desenvolvedores de todo o mundo trabalharão com a equipe da OpenAI para visualizar "novas ferramentas" com antecedência e trocar ideias.

Isso pode significar que o ChatGPT fez novos progressos.

De acordo com o The Paper, em 30 de agosto, uma pessoa familiarizada com o assunto revelou que a OpenAI deverá alcançar mais de US$ 1 bilhão em receitas nos próximos 12 meses com a venda de software de IA e o poder de computação para impulsionar sua operação.

Hoje, outra reportagem da mídia afirmou que o Morgan Stanley lançará um chatbot generativo de inteligência artificial desenvolvido em conjunto com a OpenAI no final deste mês.

As pessoas que lidam com banqueiros do Morgan Stanley são ricas ou ricas. Se este próximo chatbot generativo de inteligência artificial puder trazer uma experiência diferente aos clientes do Morgan Stanley, poderá ser um grande ganho para a OpenAI.

A chegada da era da inteligência artificial tornou-se imparável. Quanto a quem é melhor, você não pode simplesmente dizer a si mesmo, você tem que permitir que os usuários avaliem. Acreditamos também que os grandes modelos domésticos certamente alcançarão o ChatGPT em termos de capacidades específicas e abrangentes.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

金色财经_

TendênciasVer projetos
#Funny Moments In Crypto
19k Popularidade
#My Pick In RWA
29k Popularidade
#Double Rewards With GUSD
57k Popularidade
#Crypto Market Rebound
272k Popularidade
#Gate Alpha New Listings
38k Popularidade

Marcar

sitemap

Mais de meio ano se passou e a classificação do ChatGPT está quase no último lugar.

O tempo de teste é diferente A equipe de teste é diferente GPT-4 ocupa o décimo primeiro lugar

**O que dizem os grandes desenvolvedores de modelos? **Muitas pessoas disseram que superaram o ChatGPT em chinês e outras habilidades

Situação da OpenAI

O que dizem os grandes desenvolvedores de modelos? Muitas pessoas disseram que superaram o ChatGPT em chinês e outras habilidades