400 mil tokens tornam-se o novo padrão para grandes modelos A capacidade de longo texto pode impulsionar uma revolução industrial

robot
Geração do resumo em andamento

A capacidade de longo texto dos grandes modelos está a melhorar rapidamente, 400 mil tokens podem ser apenas o começo

A capacidade de processamento de longos textos dos grandes modelos está a aumentar a uma velocidade impressionante. Desde os primeiros 4000 tokens até aos atuais 400.000 tokens, o crescimento desta capacidade é visível a olho nu.

A capacidade de texto longo parece ter se tornado um novo "padrão" para os fabricantes de grandes modelos. Internacionalmente, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente, através de várias atualizações. A Anthropic fez ainda mais ao expandir o comprimento do contexto de seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens ou até mais.

No âmbito nacional, a Kimi Chat, uma startup de modelos grandes lançada pela Moonlight, suporta a entrada de 200 mil caracteres chineses, equivalente a cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto de um modelo de 7B para 100 mil tokens, enquanto um modelo de 70B pode alcançar 32 mil tokens.

Atualmente, várias das principais empresas e instituições de pesquisa em grandes modelos, incluindo OpenAI, Anthropic, Meta e a Lua da Escuridão, estão focadas na expansão do comprimento do contexto como uma direção de atualização prioritária. Sem exceção, essas empresas são as queridinhas do mercado de capitais. A OpenAI recebeu quase 12 bilhões de dólares em investimentos, a avaliação da Anthropic deve alcançar 30 bilhões de dólares, e a Lua da Escuridão completou várias rodadas de financiamento em apenas seis meses, com uma avaliação superior a 300 milhões de dólares.

O que significa um aumento de cem vezes no comprimento do contexto? À primeira vista, isso amplia o alcance de leitura do modelo. De inicialmente conseguir ler um breve artigo, agora é capaz de ler facilmente um romance longo. Em um nível mais profundo, a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.

No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não se pode igualar diretamente o suporte do modelo a entradas de contexto mais longas com a melhoria do desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.

Apesar disso, a exploração atual do comprimento do texto parece ainda não ter atingido o "ponto crítico". Empresas de modelos grandes, tanto nacionais quanto internacionais, continuam a fazer avanços, e 400 mil tokens podem ser apenas o começo.

O desenvolvimento da tecnologia de long text não só resolveu alguns dos problemas iniciais dos grandes modelos, como também pavimentou o caminho para a promoção de aplicações industriais. Isso marca a entrada do desenvolvimento dos grandes modelos em uma nova fase, de LLM para Long LLM.

No futuro, assistentes de IA que se afastam das simples rodadas de conversa estão a desenvolver-se na direção da especialização, personalização e profundidade. Isso poderá tornar-se uma nova alavanca para impulsionar aplicações industriais e criar super aplicativos.

No entanto, a tecnologia de texto longo ainda enfrenta o dilema do "triângulo impossível": é difícil conciliar o comprimento do texto, a atenção e a capacidade computacional. Atualmente, busca-se uma solução principalmente através da otimização do mecanismo de autoatenção, uso de ferramentas externas para auxiliar no processamento e otimização de modelos.

A direção futura do desenvolvimento está em encontrar o melhor ponto de equilíbrio entre os três, para lidar com informações suficientes enquanto considera as limitações de cálculo de atenção e custo computacional. A contínua melhoria na capacidade de textos longos irá abrir perspectivas de aplicação mais amplas para grandes modelos.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
DefiPlaybookvip
· 10h atrás
Outra vez a aumentar RAM, como se o TVL tivesse subido.
Ver originalResponder0
HorizonHuntervip
· 20h atrás
40w também vai transbordar a memória, certo?
Ver originalResponder0
SelfStakingvip
· 21h atrás
Chegou a 400 mil, muito forte!
Ver originalResponder0
StablecoinAnxietyvip
· 21h atrás
Explodir 400 mil tokens, ficar careca
Ver originalResponder0
TideRecedervip
· 21h atrás
Os meus tokens estão a subir loucamente.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)