O desempenho do modelo grande 20B é comparável ao Llama2-70B! Totalmente de código aberto, tudo, desde a base até as ferramentas, está organizado de forma clara.
Agora mesmo, o registro de parâmetros do modelo de código aberto doméstico foi atualizado novamente!
Em 20 de setembro, o Laboratório de Inteligência Artificial de Xangai (Laboratório de IA de Xangai) e a SenseTime, em colaboração com a Universidade Chinesa de Hong Kong e a Universidade Fudan, abriram oficialmente o código-fonte do modelo InternLM-20B de 20 bilhões de parâmetros.
endereço do projeto:
Comunidade mágica:
Desta vez, pode-se dizer que a versão de 20 bilhões de parâmetros do modelo grande Shusheng·Puyu está "aumentando a quantidade sem aumentar o preço".O número de parâmetros é inferior a um terço, mas seu desempenho pode rivalizar com o benchmark de hoje modelos de código aberto - Llama2-70B. Os atuais modelos 13B de código aberto convencionais são deixados para trás pelo InternLM-20B em todas as dimensões.
Além disso, o sistema de ferramentas de cadeia completa para desenvolvimento e aplicação de modelos grandes também foi atualizado ao mesmo tempo.
Do próprio modelo de código aberto a toda a cadeia de ferramentas de código aberto, desta vez, o Laboratório de IA de Xangai trouxe à tona todos os tesouros acumulados em seu próprio modelo de pesquisa e desenvolvimento em grande escala, na esperança de ajudar pesquisadores, instituições e profissionais sociais Todos podem participar na revolução tecnológica provocada pelos grandes modelos a um custo e limiar muito baixos.
O desempenho é "líder em sua classe" e o limite está "pronto para uso assim que sai da caixa".O InternLM-20B é o catalisador e o novo fulcro para modelos grandes entrarem em milhares de indústrias!
Esta onda de modelos grandes beneficiará a todos.
Tudo o que usamos é de código aberto
Como todos sabemos, em todo o sistema de P&D de grandes modelos, existem vários elos interligados, o que representa um conjunto muito complexo de circuitos fechados.
Como organizá-lo de forma mais padronizada? Como usar o modelo básico depois de obtê-lo? Que precauções devem ser tomadas durante o processo de implementação passo a passo? Existem problemas em todos os lugares.
Após prática real no trabalho diário, a equipe do Laboratório de IA de Xangai acumulou um conjunto de experiências valiosas.
Agora, para prosperar o ecossistema de código aberto, eles simplesmente abrem o código-fonte de todas as ferramentas envolvidas no modelo, desde a preparação de dados até o pré-treinamento, implantação e aplicativos de avaliação.
Descriptografe a "Fórmula Exclusiva"
A importância dos dados para grandes modelos é como a matéria-prima para a produção: sem uma fonte de energia, eles não podem impulsionar a operação de sistemas inteligentes de IA. Em particular, dados de alta qualidade são um dos elementos-chave para a industrialização de grandes modelos.
Em termos de recolha, não só é necessário filtrar e limpar eficazmente os materiais originais rastreados a partir de vários canais, tais como páginas web, livros, relatórios profissionais e artigos, mas também fazer pleno uso do feedback fornecido pelos modelos de utilizadores de testes internos.
No entanto, para que o LLM adquira capacidades essenciais, como compreensão, programação e raciocínio lógico, e se torne um verdadeiro “guerreiro hexágono”, é mais importante construir dados por si só.
A este respeito, a investigação académica também é muito activa.Por exemplo, "Textbooks Are All You Need" da Microsoft pode alcançar uma liderança relativa no benchmark através da construção de um modelo phi-1 treinado em dados.
No que diz respeito à equipe do Laboratório de IA de Xangai, eles não optaram por construir dados de uma única direção, mas de uma “dimensão completa”, classificando todo o sistema de conhecimento e construindo o corpus.
Portanto, a densidade de conhecimento e de lógica nesses corpora é muito alta.
Adicionar uma pequena quantidade de "catalisador" a uma grande quantidade de conteúdo regular pode não apenas estimular melhor os principais recursos do LLM, mas também permitir que o modelo absorva e compreenda melhor as informações relevantes.
Nas palavras de Lin Dahua, um importante cientista do Laboratório de IA de Xangai, “Em certo sentido, um token aqui pode ser equivalente à eficácia de 10 ou mesmo 100 tokens tradicionais”.
Em termos de poder computacional, exceto para as grandes empresas de Internet que possuem recursos abundantes, é difícil para a maioria dos desenvolvedores da comunidade de código aberto obter mais poder computacional.
"Espero que haja ferramentas leves que possam usar o modelo." Este é o maior feedback da comunidade que o Shanghai AI Lab recebeu.
Por meio da ferramenta de ajuste fino leve XTuner de código aberto, os usuários podem usar seus próprios dados para ajustar o modelo de código aberto do Laboratório de IA de Xangai em uma GPU de consumo de 8 GB.
Além disso, em termos de aplicação do modelo, o “diálogo de chat” ainda é uma parte muito importante das capacidades do modelo.
O Laboratório de IA de Xangai também quer destacar que o grande modelo serve como um hub central e utiliza ferramentas para resolver problemas, semelhante à forma como o Code Interpreter chama de ferramentas.
Ao mesmo tempo, durante este processo, o grande modelo também pode realizar a autorreflexão.Este é o enorme potencial dos agentes inteligentes com o apoio do LLM.
Lin Dahua acredita que o Agente será uma direção muito valiosa para o desenvolvimento a longo prazo que precisa ser explorada.
No mundo final dos agentes inteligentes, toda a divisão organizacional do trabalho continuará a se atualizar e a evoluir.No futuro, certamente haverá muitos agentes inteligentes coexistindo, cada um com suas próprias áreas de especialização, e haverá muitas tecnologias que pode promover a comunicação entre eles.
Então, onde está a atualização específica desta cadeia de ferramentas?
- Dados: corpus de pré-treinamento de código aberto OpenDataLab "Scholar·Ten Thousand Volumes"
Em termos de dados, o corpus de treinamento multimodal Scholar·Wanjuan 1.0 foi oficialmente aberto em 14 de agosto. O volume total de dados excede 2 TB, incluindo conjunto de dados de texto, conjunto de dados gráficos e conjunto de dados de vídeo.
Através da "digestão" de corpus de alta qualidade, os modelos da série Shusheng demonstraram excelente desempenho em diversas tarefas generativas, como compreensão semântica, perguntas e respostas de conhecimento, compreensão visual e perguntas e respostas visuais.
Até agora, houve quase 100.000 downloads.
- Pré-treinamento: estrutura de pré-treinamento eficiente do InternLM
Na fase de pré-treinamento, o armazém InternLM também abriu o código-fonte da estrutura de pré-treinamento InternLM-Train.
Por um lado, integra profundamente os operadores do modelo Transformer para melhorar a eficiência do treinamento e, por outro lado, propõe a tecnologia Hybrid Zero exclusiva para obter uma sobreposição eficiente de computação e comunicação, reduzindo significativamente o tráfego de comunicação entre nós durante o processo de treinamento.
Graças à máxima otimização de desempenho, este sistema de código aberto atinge alta eficiência de computação paralela de quilo-card, e seu desempenho de treinamento atingiu o nível líder do setor.
**- Ajuste fino: ajuste fino de parâmetros completos do InternLM, ajuste fino leve do XTuner **
A caixa de ferramentas de ajuste fino de modelos grandes e de baixo custo XTuner também foi aberta recentemente, suportando uma variedade de grandes modelos de código aberto, como Llama, bem como algoritmos de ajuste fino, como LoRA e QLoRA.
Em termos de requisitos de hardware, o XTuner só precisa de um mínimo de 8 GB de memória de vídeo para realizar o ajuste fino de baixo custo do modelo 7B. O ajuste fino do modelo 20B também pode ser concluído em uma placa gráfica de consumo com 24G de memória de vídeo.
O XTuner fornece uma variedade de estruturas de ajuste fino para vários modelos de código aberto
- Implantação: LMDeploy suporta inferência eficiente de bilhões a centenas de bilhões de modelos de linguagem de parâmetros
Em termos de implantação, o LMDeploy cobre um conjunto completo de soluções leves de implantação de inferência e serviços para modelos grandes.
Ele suporta inferência de modelo eficiente de um bilhão a cem bilhões de parâmetros e excede os principais projetos de código aberto da comunidade, FasterTransformer, vLLM, Deepspeed, etc., em termos de rendimento e outros desempenhos.
**- Avaliação: plataforma completa e completa de avaliação de modelos grandes OpenCompass **
Na parte de avaliação, a plataforma de avaliação de grandes modelos de código aberto OpenCompass fornece um sistema de avaliação em cinco dimensões: matéria, linguagem, conhecimento, compreensão e raciocínio.
Ao mesmo tempo, também suporta mais de 50 conjuntos de dados de avaliação, 300.000 questões de avaliação e suporta avaliação de amostra zero, amostra pequena e avaliação da cadeia de pensamento.É atualmente a plataforma de avaliação de código aberto mais abrangente.
-Aplicação: Estrutura de agente leve e flexível da Lagent
Na fase final de aplicação, a equipe do Laboratório de IA de Xangai se concentrou no agente, desenvolvendo e abrindo o código-fonte da estrutura de agente leve e flexível do Lagent.
Ele pode ajudar os usuários a transformar rapidamente um grande modelo de linguagem em vários tipos de agentes e fornecer ferramentas típicas para capacitar grandes modelos de linguagem.
Esta estrutura de código aberto integra vários tipos de recursos de agente, incluindo ReAct clássico, AutoGPT e ReWoo.
A estrutura do código desta estrutura não é apenas clara, mas também simples. Com menos de 20 linhas de código, os desenvolvedores podem criar seu próprio agente.
Além disso, Lagent oferece suporte a vários modelos grandes, incluindo InternLM, Llama, ChatGPT.
Com o apoio de Lagent, esses agentes podem chamar grandes modelos de linguagem para planejamento de raciocínio e invocação de ferramentas, e podem conduzir reflexão oportuna e autocorreção durante o processo de execução.
Primeiro contexto doméstico de 16k, 20 bilhões de parâmetros vinculados ao Llama2-70B
Além de um conjunto completo de grandes cadeias de ferramentas de modelo, o Shanghai AI Laboratory também abriu o código-fonte do InternLM-20B com até 20 bilhões de parâmetros.
Os resultados da avaliação mostram que entre os modelos de código aberto da mesma magnitude, o InternLM-20B é merecidamente com o melhor desempenho geral.
- Suporte de contexto extra longo
Primeiro, em termos de comprimento de contexto, o InternLM-20B pode suportar janelas de contexto de até 16K.
Conforme mostrado na figura abaixo, o InternLM-20B conseguiu responder com precisão a três perguntas depois de ler um longo artigo de notícias sobre uma marca de café conhecida.
Para artigos e relatórios extremamente longos, o InternLM-20B também pode extrair resumos com precisão.
Por exemplo, depois de inserir o artigo clássico do ResNet, ele imediatamente escreve um resumo, resumindo com precisão as ideias centrais e os resultados experimentais do ResNet.
- Chame as ferramentas e torne-se autodidata
Em segundo lugar, com o suporte de contexto longo, as capacidades do modelo são bastante expandidas e há mais espaço para invocação de ferramentas, explicação de código, reflexão e correção. E esta se tornou uma tecnologia chave para a construção de corpos inteligentes no InternLM-20B.
Agora, o InternLM-20B pode não apenas suportar a saída de conteúdo em dezenas de direções, como data, clima, viagens, esportes, etc., bem como dezenas de milhares de APIs diferentes, mas também pode chamar ferramentas de maneira semelhante ao Code Interpreter. .
Ao mesmo tempo, neste processo, também pode refletir, revisar e conectar-se com cenas reais.
No ToolBench, um grande modelo de avaliação de chamada de ferramenta lançado em conjunto pela Universidade Tsinghua e outras instituições, o InternLM-20B alcançou uma taxa de vitórias de 63,5% em comparação com o ChatGPT, alcançando o melhor resultado da lista.
Além disso, o modelo InternLM-20B também exibe certas capacidades de generalização de amostra zero. Mesmo que o modelo não tenha aprendido algumas ferramentas durante o processo de treinamento, ele ainda pode chamar ferramentas com base nas descrições das ferramentas e nas perguntas do usuário.
Conforme mostrado na figura abaixo, se você fornecer algumas ferramentas de IA, ele poderá planejar e raciocinar por conta própria e resolver os problemas do usuário.
- Liderança abrangente na mesma categoria de peso
No conjunto de avaliação principal de até 50 modelos em várias dimensões, o InternLM-20B também alcançou o melhor desempenho geral de modelos de código aberto da mesma magnitude.
Ao mesmo tempo, também superou claramente o maior Llama-33B em termos de desempenho médio, e até venceu por pouco o Llama2-70B em algumas avaliações.
Especificamente, o InternLM-20B tem excelentes resultados em avaliações abrangentes de assuntos MMLU, C- e AGI e está em uma posição de liderança entre modelos de código aberto da mesma magnitude.
Especialmente em C- e AGI, que incluem o exame da disciplina chinesa, o desempenho excedeu significativamente o Llama2-70B.
Na avaliação que testa o conhecimento factual, o InternLM-20B supera de forma abrangente o modelo 13B e pode competir com o Llama-33B.
Mas ainda há uma certa lacuna em relação ao Llama-65B ou ao Llama2-70B.
Em termos de capacidade de compreensão, o desempenho do InternLM-20B é ainda mais notável, superando todos os modelos de código aberto, incluindo o Llama2-70B.
O raciocínio é o "obstáculo" que falhou em muitos modelos. Ele testa a capacidade de grandes modelos de ganhar dinheiro real e também determina em grande parte se o modelo pode suportar aplicações práticas.
Nos quatro conjuntos de avaliação de inferência a seguir, os resultados do InternLM-20B ultrapassaram o modelo de código aberto 13B convencional e chegaram perto da capacidade de inferência do Llama-65B.
Em termos de capacidades de programação, o InternLM-20B também foi significativamente melhorado. Nos dois conjuntos de avaliação típicos de Humano e MBPP, está próximo de Llama2-70B.
Nota: As fontes em negrito nas capturas de tela acima são os melhores resultados na faixa 13B-33B.
Na última lista de avaliação do Open LLM Leaderboard divulgada pela HuggingFace, o InternLM-20B lidera a pontuação média entre os modelos básicos com parâmetros inferiores a 60B e também supera o Llama-65B.
- Um modelo de código aberto mais seguro
Por fim, em termos de alinhamento de valor, o InternLM-20B também é mais completo e seguro.
Se você fizer uma pergunta tendenciosa, ele identificará imediatamente os fatores inseguros e fornecerá orientação de valor correta.
Modelos grandes nunca foram propriedade exclusiva de grandes fabricantes.
Após o início da onda de modelos grandes, precisamos nos concentrar não apenas em estar no topo da lista de avaliação, mas também em como transformar modelos grandes de "a joia da coroa da IA" em uma "nova produtividade" que possa ser usada em milhares de indústrias.
Ao longo da história, as tecnologias que realmente lideram os tempos não são apenas inovações disruptivas, mas, mais importante ainda, são de baixo custo, de baixo limiar e estão disponíveis para todos. Mas grandes empresas como OpenAI e Google nunca tornarão públicos os detalhes específicos.
E esta é a intenção original do Laboratório de IA de Xangai.
Desde o seu lançamento em junho, Shusheng Puyu completou várias rodadas de atualizações e teve um amplo impacto na comunidade e na indústria de código aberto.
Além disso, além de abrir o código no GitHub e colocar os modelos nas comunidades HuggingFace e Moda, o Laboratório de IA de Xangai ainda envia pessoal dedicado para ler o feedback da comunidade todos os dias e responder cuidadosamente às perguntas dos usuários.
Anteriormente, o modelo LLaMA da Meta era de código aberto, desencadeando um frenesi de substituição do ChatGPT e inaugurando um momento de difusão estável para modelos de texto grandes.
Assim como o próspero ecossistema da família alpaca hoje, os esforços de código aberto do Laboratório de IA de Xangai certamente trarão um valor imensurável para a comunidade.
Para desenvolvedores e pesquisadores ativos em todo o mundo, Shusheng Puyu fornecerá uma base de tamanho moderado, mas com capacidades muito poderosas.
Embora a maioria das empresas, especialmente as pequenas e médias empresas, tenham visto a tendência dos grandes modelos, é pouco provável que gastem muito dinheiro para adquirir poder computacional e atrair os melhores talentos, como os grandes fabricantes.
Na verdade, a partir da Conferência de Inteligência Artificial em 6 de julho, o Laboratório de IA de Xangai tem feito código aberto em toda a cadeia. Por exemplo, o XTuner permite que os usuários treinem seus próprios modelos usando apenas alguns de seus próprios dados de uma forma muito leve.
Além disso, uma equipe combinou as perguntas, o corpus, os documentos e o modelo XTuner da comunidade de código aberto para treinar o atendimento ao cliente da comunidade de código aberto. Esta é uma contribuição real para a comunidade de código aberto.
Na verdade, o Laboratório de IA de Xangai compartilhou todo o seu sistema técnico com a comunidade (ou seja, o sistema de ferramentas de cadeia completa mencionado acima).
Existem tantas indústrias, tantas empresas, tantas instituições e desenvolvedores em toda a sociedade. Se eles conseguirem realmente perceber o valor dos grandes modelos, será uma força muito importante.
Eles têm uma criatividade infinita, a única coisa que lhes falta são recursos.
A "ajuda em tempos de necessidade" do Laboratório de IA de Xangai certamente permitirá que grandes modelos exerçam enorme valor no campo da implementação.
Como Lin Dahua disse——
Como laboratório, podemos fornecer modelos básicos e uma série de ferramentas que integram o know-how de diversas indústrias em dados e capacidades de modelo, e torná-los muito fáceis de usar e ensinar mais pessoas a usá-los, para que possam ser usados em vários setores, há flores e frutas.
Link de código aberto do sistema de ferramentas de cadeia completa
Corpus de pré-treinamento "Scholar·Ten Thousand Volumes":
Estrutura de pré-treinamento do InternLM:
Caixa de ferramentas de ajuste fino do XTuner:
Cadeia de ferramentas de inferência LMDeploy:
Plataforma de avaliação de grandes modelos OpenCompas:
Estrutura do agente lagente:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O desempenho do modelo grande 20B é comparável ao Llama2-70B! Totalmente de código aberto, tudo, desde a base até as ferramentas, está organizado de forma clara.
**Fonte:**Xinzhiyuan
Agora mesmo, o registro de parâmetros do modelo de código aberto doméstico foi atualizado novamente!
Em 20 de setembro, o Laboratório de Inteligência Artificial de Xangai (Laboratório de IA de Xangai) e a SenseTime, em colaboração com a Universidade Chinesa de Hong Kong e a Universidade Fudan, abriram oficialmente o código-fonte do modelo InternLM-20B de 20 bilhões de parâmetros.
endereço do projeto:
Comunidade mágica:
Desta vez, pode-se dizer que a versão de 20 bilhões de parâmetros do modelo grande Shusheng·Puyu está "aumentando a quantidade sem aumentar o preço".O número de parâmetros é inferior a um terço, mas seu desempenho pode rivalizar com o benchmark de hoje modelos de código aberto - Llama2-70B. Os atuais modelos 13B de código aberto convencionais são deixados para trás pelo InternLM-20B em todas as dimensões.
Além disso, o sistema de ferramentas de cadeia completa para desenvolvimento e aplicação de modelos grandes também foi atualizado ao mesmo tempo.
Do próprio modelo de código aberto a toda a cadeia de ferramentas de código aberto, desta vez, o Laboratório de IA de Xangai trouxe à tona todos os tesouros acumulados em seu próprio modelo de pesquisa e desenvolvimento em grande escala, na esperança de ajudar pesquisadores, instituições e profissionais sociais Todos podem participar na revolução tecnológica provocada pelos grandes modelos a um custo e limiar muito baixos.
O desempenho é "líder em sua classe" e o limite está "pronto para uso assim que sai da caixa".O InternLM-20B é o catalisador e o novo fulcro para modelos grandes entrarem em milhares de indústrias!
Esta onda de modelos grandes beneficiará a todos.
Tudo o que usamos é de código aberto
Como todos sabemos, em todo o sistema de P&D de grandes modelos, existem vários elos interligados, o que representa um conjunto muito complexo de circuitos fechados.
Como organizá-lo de forma mais padronizada? Como usar o modelo básico depois de obtê-lo? Que precauções devem ser tomadas durante o processo de implementação passo a passo? Existem problemas em todos os lugares.
Após prática real no trabalho diário, a equipe do Laboratório de IA de Xangai acumulou um conjunto de experiências valiosas.
Agora, para prosperar o ecossistema de código aberto, eles simplesmente abrem o código-fonte de todas as ferramentas envolvidas no modelo, desde a preparação de dados até o pré-treinamento, implantação e aplicativos de avaliação.
Descriptografe a "Fórmula Exclusiva"
A importância dos dados para grandes modelos é como a matéria-prima para a produção: sem uma fonte de energia, eles não podem impulsionar a operação de sistemas inteligentes de IA. Em particular, dados de alta qualidade são um dos elementos-chave para a industrialização de grandes modelos.
Em termos de recolha, não só é necessário filtrar e limpar eficazmente os materiais originais rastreados a partir de vários canais, tais como páginas web, livros, relatórios profissionais e artigos, mas também fazer pleno uso do feedback fornecido pelos modelos de utilizadores de testes internos.
No entanto, para que o LLM adquira capacidades essenciais, como compreensão, programação e raciocínio lógico, e se torne um verdadeiro “guerreiro hexágono”, é mais importante construir dados por si só.
A este respeito, a investigação académica também é muito activa.Por exemplo, "Textbooks Are All You Need" da Microsoft pode alcançar uma liderança relativa no benchmark através da construção de um modelo phi-1 treinado em dados.
Portanto, a densidade de conhecimento e de lógica nesses corpora é muito alta.
Adicionar uma pequena quantidade de "catalisador" a uma grande quantidade de conteúdo regular pode não apenas estimular melhor os principais recursos do LLM, mas também permitir que o modelo absorva e compreenda melhor as informações relevantes.
Nas palavras de Lin Dahua, um importante cientista do Laboratório de IA de Xangai, “Em certo sentido, um token aqui pode ser equivalente à eficácia de 10 ou mesmo 100 tokens tradicionais”.
Em termos de poder computacional, exceto para as grandes empresas de Internet que possuem recursos abundantes, é difícil para a maioria dos desenvolvedores da comunidade de código aberto obter mais poder computacional.
"Espero que haja ferramentas leves que possam usar o modelo." Este é o maior feedback da comunidade que o Shanghai AI Lab recebeu.
Por meio da ferramenta de ajuste fino leve XTuner de código aberto, os usuários podem usar seus próprios dados para ajustar o modelo de código aberto do Laboratório de IA de Xangai em uma GPU de consumo de 8 GB.
Além disso, em termos de aplicação do modelo, o “diálogo de chat” ainda é uma parte muito importante das capacidades do modelo.
O Laboratório de IA de Xangai também quer destacar que o grande modelo serve como um hub central e utiliza ferramentas para resolver problemas, semelhante à forma como o Code Interpreter chama de ferramentas.
Ao mesmo tempo, durante este processo, o grande modelo também pode realizar a autorreflexão.Este é o enorme potencial dos agentes inteligentes com o apoio do LLM.
Lin Dahua acredita que o Agente será uma direção muito valiosa para o desenvolvimento a longo prazo que precisa ser explorada.
No mundo final dos agentes inteligentes, toda a divisão organizacional do trabalho continuará a se atualizar e a evoluir.No futuro, certamente haverá muitos agentes inteligentes coexistindo, cada um com suas próprias áreas de especialização, e haverá muitas tecnologias que pode promover a comunicação entre eles.
Então, onde está a atualização específica desta cadeia de ferramentas?
- Dados: corpus de pré-treinamento de código aberto OpenDataLab "Scholar·Ten Thousand Volumes"
Em termos de dados, o corpus de treinamento multimodal Scholar·Wanjuan 1.0 foi oficialmente aberto em 14 de agosto. O volume total de dados excede 2 TB, incluindo conjunto de dados de texto, conjunto de dados gráficos e conjunto de dados de vídeo.
Através da "digestão" de corpus de alta qualidade, os modelos da série Shusheng demonstraram excelente desempenho em diversas tarefas generativas, como compreensão semântica, perguntas e respostas de conhecimento, compreensão visual e perguntas e respostas visuais.
Até agora, houve quase 100.000 downloads.
- Pré-treinamento: estrutura de pré-treinamento eficiente do InternLM
Na fase de pré-treinamento, o armazém InternLM também abriu o código-fonte da estrutura de pré-treinamento InternLM-Train.
Por um lado, integra profundamente os operadores do modelo Transformer para melhorar a eficiência do treinamento e, por outro lado, propõe a tecnologia Hybrid Zero exclusiva para obter uma sobreposição eficiente de computação e comunicação, reduzindo significativamente o tráfego de comunicação entre nós durante o processo de treinamento.
Graças à máxima otimização de desempenho, este sistema de código aberto atinge alta eficiência de computação paralela de quilo-card, e seu desempenho de treinamento atingiu o nível líder do setor.
**- Ajuste fino: ajuste fino de parâmetros completos do InternLM, ajuste fino leve do XTuner **
A caixa de ferramentas de ajuste fino de modelos grandes e de baixo custo XTuner também foi aberta recentemente, suportando uma variedade de grandes modelos de código aberto, como Llama, bem como algoritmos de ajuste fino, como LoRA e QLoRA.
Em termos de requisitos de hardware, o XTuner só precisa de um mínimo de 8 GB de memória de vídeo para realizar o ajuste fino de baixo custo do modelo 7B. O ajuste fino do modelo 20B também pode ser concluído em uma placa gráfica de consumo com 24G de memória de vídeo.
- Implantação: LMDeploy suporta inferência eficiente de bilhões a centenas de bilhões de modelos de linguagem de parâmetros
Em termos de implantação, o LMDeploy cobre um conjunto completo de soluções leves de implantação de inferência e serviços para modelos grandes.
Ele suporta inferência de modelo eficiente de um bilhão a cem bilhões de parâmetros e excede os principais projetos de código aberto da comunidade, FasterTransformer, vLLM, Deepspeed, etc., em termos de rendimento e outros desempenhos.
Na parte de avaliação, a plataforma de avaliação de grandes modelos de código aberto OpenCompass fornece um sistema de avaliação em cinco dimensões: matéria, linguagem, conhecimento, compreensão e raciocínio.
Ao mesmo tempo, também suporta mais de 50 conjuntos de dados de avaliação, 300.000 questões de avaliação e suporta avaliação de amostra zero, amostra pequena e avaliação da cadeia de pensamento.É atualmente a plataforma de avaliação de código aberto mais abrangente.
Na fase final de aplicação, a equipe do Laboratório de IA de Xangai se concentrou no agente, desenvolvendo e abrindo o código-fonte da estrutura de agente leve e flexível do Lagent.
Ele pode ajudar os usuários a transformar rapidamente um grande modelo de linguagem em vários tipos de agentes e fornecer ferramentas típicas para capacitar grandes modelos de linguagem.
A estrutura do código desta estrutura não é apenas clara, mas também simples. Com menos de 20 linhas de código, os desenvolvedores podem criar seu próprio agente.
Além disso, Lagent oferece suporte a vários modelos grandes, incluindo InternLM, Llama, ChatGPT.
Com o apoio de Lagent, esses agentes podem chamar grandes modelos de linguagem para planejamento de raciocínio e invocação de ferramentas, e podem conduzir reflexão oportuna e autocorreção durante o processo de execução.
Primeiro contexto doméstico de 16k, 20 bilhões de parâmetros vinculados ao Llama2-70B
Além de um conjunto completo de grandes cadeias de ferramentas de modelo, o Shanghai AI Laboratory também abriu o código-fonte do InternLM-20B com até 20 bilhões de parâmetros.
Os resultados da avaliação mostram que entre os modelos de código aberto da mesma magnitude, o InternLM-20B é merecidamente com o melhor desempenho geral.
- Suporte de contexto extra longo
Primeiro, em termos de comprimento de contexto, o InternLM-20B pode suportar janelas de contexto de até 16K.
Conforme mostrado na figura abaixo, o InternLM-20B conseguiu responder com precisão a três perguntas depois de ler um longo artigo de notícias sobre uma marca de café conhecida.
Por exemplo, depois de inserir o artigo clássico do ResNet, ele imediatamente escreve um resumo, resumindo com precisão as ideias centrais e os resultados experimentais do ResNet.
Em segundo lugar, com o suporte de contexto longo, as capacidades do modelo são bastante expandidas e há mais espaço para invocação de ferramentas, explicação de código, reflexão e correção. E esta se tornou uma tecnologia chave para a construção de corpos inteligentes no InternLM-20B.
Agora, o InternLM-20B pode não apenas suportar a saída de conteúdo em dezenas de direções, como data, clima, viagens, esportes, etc., bem como dezenas de milhares de APIs diferentes, mas também pode chamar ferramentas de maneira semelhante ao Code Interpreter. .
Ao mesmo tempo, neste processo, também pode refletir, revisar e conectar-se com cenas reais.
No ToolBench, um grande modelo de avaliação de chamada de ferramenta lançado em conjunto pela Universidade Tsinghua e outras instituições, o InternLM-20B alcançou uma taxa de vitórias de 63,5% em comparação com o ChatGPT, alcançando o melhor resultado da lista.
Conforme mostrado na figura abaixo, se você fornecer algumas ferramentas de IA, ele poderá planejar e raciocinar por conta própria e resolver os problemas do usuário.
No conjunto de avaliação principal de até 50 modelos em várias dimensões, o InternLM-20B também alcançou o melhor desempenho geral de modelos de código aberto da mesma magnitude.
Ao mesmo tempo, também superou claramente o maior Llama-33B em termos de desempenho médio, e até venceu por pouco o Llama2-70B em algumas avaliações.
Especialmente em C- e AGI, que incluem o exame da disciplina chinesa, o desempenho excedeu significativamente o Llama2-70B.
Mas ainda há uma certa lacuna em relação ao Llama-65B ou ao Llama2-70B.
Nos quatro conjuntos de avaliação de inferência a seguir, os resultados do InternLM-20B ultrapassaram o modelo de código aberto 13B convencional e chegaram perto da capacidade de inferência do Llama-65B.
Na última lista de avaliação do Open LLM Leaderboard divulgada pela HuggingFace, o InternLM-20B lidera a pontuação média entre os modelos básicos com parâmetros inferiores a 60B e também supera o Llama-65B.
Por fim, em termos de alinhamento de valor, o InternLM-20B também é mais completo e seguro.
Se você fizer uma pergunta tendenciosa, ele identificará imediatamente os fatores inseguros e fornecerá orientação de valor correta.
Modelos grandes nunca foram propriedade exclusiva de grandes fabricantes.
Após o início da onda de modelos grandes, precisamos nos concentrar não apenas em estar no topo da lista de avaliação, mas também em como transformar modelos grandes de "a joia da coroa da IA" em uma "nova produtividade" que possa ser usada em milhares de indústrias.
Ao longo da história, as tecnologias que realmente lideram os tempos não são apenas inovações disruptivas, mas, mais importante ainda, são de baixo custo, de baixo limiar e estão disponíveis para todos. Mas grandes empresas como OpenAI e Google nunca tornarão públicos os detalhes específicos.
E esta é a intenção original do Laboratório de IA de Xangai.
Desde o seu lançamento em junho, Shusheng Puyu completou várias rodadas de atualizações e teve um amplo impacto na comunidade e na indústria de código aberto.
Anteriormente, o modelo LLaMA da Meta era de código aberto, desencadeando um frenesi de substituição do ChatGPT e inaugurando um momento de difusão estável para modelos de texto grandes.
Assim como o próspero ecossistema da família alpaca hoje, os esforços de código aberto do Laboratório de IA de Xangai certamente trarão um valor imensurável para a comunidade.
Embora a maioria das empresas, especialmente as pequenas e médias empresas, tenham visto a tendência dos grandes modelos, é pouco provável que gastem muito dinheiro para adquirir poder computacional e atrair os melhores talentos, como os grandes fabricantes.
Na verdade, a partir da Conferência de Inteligência Artificial em 6 de julho, o Laboratório de IA de Xangai tem feito código aberto em toda a cadeia. Por exemplo, o XTuner permite que os usuários treinem seus próprios modelos usando apenas alguns de seus próprios dados de uma forma muito leve.
Na verdade, o Laboratório de IA de Xangai compartilhou todo o seu sistema técnico com a comunidade (ou seja, o sistema de ferramentas de cadeia completa mencionado acima).
Eles têm uma criatividade infinita, a única coisa que lhes falta são recursos.
A "ajuda em tempos de necessidade" do Laboratório de IA de Xangai certamente permitirá que grandes modelos exerçam enorme valor no campo da implementação.
Como Lin Dahua disse——
Como laboratório, podemos fornecer modelos básicos e uma série de ferramentas que integram o know-how de diversas indústrias em dados e capacidades de modelo, e torná-los muito fáceis de usar e ensinar mais pessoas a usá-los, para que possam ser usados em vários setores, há flores e frutas.
Link de código aberto do sistema de ferramentas de cadeia completa
Corpus de pré-treinamento "Scholar·Ten Thousand Volumes":
Estrutura de pré-treinamento do InternLM:
Caixa de ferramentas de ajuste fino do XTuner:
Cadeia de ferramentas de inferência LMDeploy:
Plataforma de avaliação de grandes modelos OpenCompas:
Estrutura do agente lagente: