400 mil tokens tornam-se o novo padrão para grandes modelos A capacidade de longo texto pode impulsionar uma revolução industrial

2025-07-13 01:30:39

Geração do resumo em andamento

A capacidade de longo texto dos grandes modelos está a melhorar rapidamente, 400 mil tokens podem ser apenas o começo

A capacidade de processamento de longos textos dos grandes modelos está a aumentar a uma velocidade impressionante. Desde os primeiros 4000 tokens até aos atuais 400.000 tokens, o crescimento desta capacidade é visível a olho nu.

A capacidade de texto longo parece ter se tornado um novo "padrão" para os fabricantes de grandes modelos. Internacionalmente, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente, através de várias atualizações. A Anthropic fez ainda mais ao expandir o comprimento do contexto de seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens ou até mais.

No âmbito nacional, a Kimi Chat, uma startup de modelos grandes lançada pela Moonlight, suporta a entrada de 200 mil caracteres chineses, equivalente a cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto de um modelo de 7B para 100 mil tokens, enquanto um modelo de 70B pode alcançar 32 mil tokens.

Atualmente, várias das principais empresas e instituições de pesquisa em grandes modelos, incluindo OpenAI, Anthropic, Meta e a Lua da Escuridão, estão focadas na expansão do comprimento do contexto como uma direção de atualização prioritária. Sem exceção, essas empresas são as queridinhas do mercado de capitais. A OpenAI recebeu quase 12 bilhões de dólares em investimentos, a avaliação da Anthropic deve alcançar 30 bilhões de dólares, e a Lua da Escuridão completou várias rodadas de financiamento em apenas seis meses, com uma avaliação superior a 300 milhões de dólares.

O que significa um aumento de cem vezes no comprimento do contexto? À primeira vista, isso amplia o alcance de leitura do modelo. De inicialmente conseguir ler um breve artigo, agora é capaz de ler facilmente um romance longo. Em um nível mais profundo, a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.

No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não se pode igualar diretamente o suporte do modelo a entradas de contexto mais longas com a melhoria do desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.

Apesar disso, a exploração atual do comprimento do texto parece ainda não ter atingido o "ponto crítico". Empresas de modelos grandes, tanto nacionais quanto internacionais, continuam a fazer avanços, e 400 mil tokens podem ser apenas o começo.

O desenvolvimento da tecnologia de long text não só resolveu alguns dos problemas iniciais dos grandes modelos, como também pavimentou o caminho para a promoção de aplicações industriais. Isso marca a entrada do desenvolvimento dos grandes modelos em uma nova fase, de LLM para Long LLM.

No futuro, assistentes de IA que se afastam das simples rodadas de conversa estão a desenvolver-se na direção da especialização, personalização e profundidade. Isso poderá tornar-se uma nova alavanca para impulsionar aplicações industriais e criar super aplicativos.

No entanto, a tecnologia de texto longo ainda enfrenta o dilema do "triângulo impossível": é difícil conciliar o comprimento do texto, a atenção e a capacidade computacional. Atualmente, busca-se uma solução principalmente através da otimização do mecanismo de autoatenção, uso de ferramentas externas para auxiliar no processamento e otimização de modelos.

A direção futura do desenvolvimento está em encontrar o melhor ponto de equilíbrio entre os três, para lidar com informações suficientes enquanto considera as limitações de cálculo de atenção e custo computacional. A contínua melhoria na capacidade de textos longos irá abrir perspectivas de aplicação mais amplas para grandes modelos.

TOKEN6.69%

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

5 Curtidas