400000 токенов становятся новым стандартом больших моделей, способность работы с длинными текстами может привести к промышленной революции

robot
Генерация тезисов в процессе

Способности больших моделей к обработке длинных текстов быстро растут, 400000 токенов, возможно, это только начало

Способность больших моделей обрабатывать длинные тексты быстро растет. С первоначальных 4000 токенов до сегодняшних 400000 токенов, этот рост очевиден.

Кажется, что способность к обработке длинных текстов стала новой "стандартной комплектацией" для производителей крупных моделей. На международной арене OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic даже значительно расширил длину контекста своей модели Claude до 100 000 токенов. LongLLaMA довел эту цифру до 256 000 токенов и даже выше.

На внутреннем рынке стартап Kimi Chat от компании 月之暗面 поддерживает ввод 200 000 китайских символов, что эквивалентно примерно 400 000 токенов. Технология LongLoRA, разработанная совместно Гонконгским китайским университетом и MIT, позволяет увеличить длину текста 7B модели до 100 000 токенов, а 70B модель может достигать 32 000 токенов.

На данный момент многие ведущие компании по разработке больших моделей и исследовательские учреждения, включая OpenAI, Anthropic, Meta и Лунную Тень, делают акцент на расширении длины контекста как важном направлении обновления. Эти компании, без исключения, являются любимчиками капитального рынка. OpenAI получила инвестиции почти в 12 миллиардов долларов, оценка Anthropic ожидается на уровне 30 миллиардов долларов, а Лунная Тень завершила несколько раундов финансирования всего через полгода после своего основания, оценка компании превысила 300 миллионов долларов.

Что означает сторазовое увеличение длины контекста? На первый взгляд, это расширяет диапазон чтения модели. Сначала она могла читать только короткие статьи, а теперь с легкостью может читать длинные романы. На более глубоком уровне технологии длинного текста способствуют внедрению больших моделей в такие профессиональные области, как финансы, юстиция и научные исследования.

Однако, длина текста не всегда является показателем его качества. Исследования показывают, что увеличение длины контекстного ввода не всегда напрямую приводит к улучшению результатов. Ключевым моментом является то, как модель эффективно использует контент контекста.

Тем не менее, текущее исследование длины текста, похоже, еще не достигло "критической точки". Компании по разработке больших моделей как в стране, так и за рубежом продолжают делать прорывы, и 400000 токенов может быть лишь началом.

Развитие технологии длинного текста не только решает некоторые проблемы ранних больших моделей, но и прокладывает путь для дальнейшего продвижения промышленных приложений. Это знаменует собой переход развития больших моделей от LLM к Long LLM.

В будущем AI-ассистенты, которые выходят за рамки простых циклов диалогов, будут развиваться в направлении профессионализации, персонализации и углубления. Это может стать новым инструментом для внедрения в отраслевые приложения и создания супер-приложений.

Однако технологии длинных текстов все еще сталкиваются с проблемой "невозможного треугольника": трудно одновременно учесть длину текста, внимание и вычислительную мощность. В настоящее время основные методы достижения прорыва заключаются в оптимизации механизма самовнимания, использовании внешних инструментов для обработки и оптимизации модели.

Будущее направление заключается в поиске оптимального баланса между тремя факторами, чтобы обрабатывать достаточное количество информации, одновременно учитывая вычисление внимания и ограничения по затратам на вычисления. Постоянное улучшение возможностей работы с длинными текстами откроет для больших моделей более широкие перспективы применения.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • 5
  • Поделиться
комментарий
0/400
DefiPlaybookvip
· 10ч назад
Снова закручивают RAM, словно TVL вырос.
Посмотреть ОригиналОтветить0
HorizonHuntervip
· 20ч назад
40w тоже переполнит память, да?
Посмотреть ОригиналОтветить0
SelfStakingvip
· 20ч назад
Добавили до 400 000, вот это да!
Посмотреть ОригиналОтветить0
StablecoinAnxietyvip
· 20ч назад
Потратил 400 тысяч токенов, лысею
Посмотреть ОригиналОтветить0
TideRecedervip
· 20ч назад
Мои токены все растут как сумасшедшие.
Посмотреть ОригиналОтветить0
  • Закрепить