Новий гарячий тренд у змаганнях великих моделей: стрибок довжини тексту від 4k до 400k токенів
Технологія великих моделей розвивається з приголомшливою швидкістю, здатність обробки тексту з початкових 4 к токенів підскочила до 400 тис. токенів, здається, що можливість роботи з довгими текстами стала новим стандартом для постачальників великих моделей.
З-за кордону OpenAI неодноразово оновлював GPT-3.5 та GPT-4, збільшивши довжину контексту до 16 тисяч та 32 тисяч токенів відповідно. Його конкурент Anthropic одним рухом розширив довжину контексту до 100 тисяч токенів. LongLLaMA, у свою чергу, розширив довжину контексту до 256 тисяч токенів і навіть більше.
Внутрішня сторона, певна стартап-компанія запустила продукт розумного помічника, який підтримує введення тексту обсягом близько 400k токенів. Технологія LongLoRA, розроблена в співпраці між Гонконзьким університетом і MIT, може розширити довжину тексту для моделі 7B до 100k токенів, а для моделі 70B до 32k токенів.
Наразі безліч провідних компаній з великими моделями та дослідницьких установ як в країні, так і за її межами розглядають розширення довжини контексту як основний напрямок оновлення. Ці компанії, як правило, є зірками, за якими полює капітальний ринок, і суми фінансування та оцінки постійно встановлюють нові рекорди.
Що означає, що компанії з великими моделями зосереджуються на технології довгих текстів? На перший погляд, це підвищення довжини введеного тексту та здатності до читання, від короткої статті до довгого роману. Глибший сенс полягає в тому, щоб сприяти впровадженню великих моделей у фінансовій, юстиційній, науковій та інших професійних сферах, задовольняючи потреби цих галузей у обробці довгих документів.
Однак, довжина тексту не завжди є важливою. Дослідження показують, що підтримка моделі для більш довгих контекстних вхідних даних не завжди призводить до покращення результатів, ключовим є те, як модель використовує контент контексту. Проте наразі в індустрії дослідження довжини тексту ще не досягли межі, 400000 токенів можуть бути лише початком.
Технологія довгих текстів привертає увагу, оскільки вона може вирішити деякі проблеми ранніх великих моделей, такі як забування важливої інформації в сценах віртуальних персонажів, обмежене генерування аналітики у професійних сферах тощо. Водночас, довгі тексти також є ключовою технологією для просування розвитку майбутніх агентів та нативних застосувань AI.
Довгі тексти можуть допомогти моделі точніше зрозуміти семантику, зменшити двозначність та підвищити точність міркувань, надаючи більше контексту та деталізованої інформації. Це знаменує перехід великих моделей від LLM до Long LLM.
Технологія довгих текстів демонструє багато переваг у практичному застосуванні: вона може швидко аналізувати ключові моменти довгих статей, витягувати ключову інформацію з фінансових звітів, реалізовувати запитання та відповіді на всю книгу; у сфері коду можна безпосередньо перетворювати наукові статті на код; також можна реалізувати функцію персоналізованого довгого діалогу, таку як рольові ігри. Ці функції сприяють розвитку діалогових роботів у напрямку більшої спеціалізації, персоналізації та глибини.
Однак, технології роботи з довгими текстами стикаються з дилемою "неможливого трикутника": між довжиною тексту, увагою та обчислювальною потужністю існує взаємне обмеження. Чим довше текст, тим важче зосередити увагу, а обробка довгих текстів потребує більше обчислювальної потужності. Ця дилема виникає через структуру Transformer, яку використовують більшість моделей, де обчислювальна складність механізму самостійної уваги зростає у квадратній залежності від довжини контексту.
В даний час існує три основні рішення: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислення механізму самовідстеження, оптимізація самого моделі. Кожне з рішень має свої переваги та недоліки, і знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю є викликом для постачальників великих моделей.
Хоча технології довгих текстів все ще мають простір для вдосконалення, вони представляють тенденцію розвитку великих моделей до вищого рівня, що обіцяє сприяти проривним застосуванням ШІ в більшій кількості професійних сфер.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
11 лайків
Нагородити
11
6
Поділіться
Прокоментувати
0/400
AirdropHunterWang
· 19год тому
токен ще в зеленому, приятелі
Переглянути оригіналвідповісти на0
GasGuzzler
· 07-13 18:22
40w token...Обчислювальна потужність要爆炸了吧
Переглянути оригіналвідповісти на0
BoredRiceBall
· 07-13 18:22
40w...людство стало ще ближче
Переглянути оригіналвідповісти на0
digital_archaeologist
· 07-13 18:22
Обчислювальна потужність警告!
Переглянути оригіналвідповісти на0
AltcoinOracle
· 07-13 18:18
захоплююче, як алгоритмічна складність масштабується з 400k токенів... чіткий прорив вгору від традиційних шаблонів уваги, якщо чесно
Довжина тексту великої моделі перевищила 400 тисяч токенів. Технологія довгих текстів стала новою ареною для штучного інтелекту.
Новий гарячий тренд у змаганнях великих моделей: стрибок довжини тексту від 4k до 400k токенів
Технологія великих моделей розвивається з приголомшливою швидкістю, здатність обробки тексту з початкових 4 к токенів підскочила до 400 тис. токенів, здається, що можливість роботи з довгими текстами стала новим стандартом для постачальників великих моделей.
З-за кордону OpenAI неодноразово оновлював GPT-3.5 та GPT-4, збільшивши довжину контексту до 16 тисяч та 32 тисяч токенів відповідно. Його конкурент Anthropic одним рухом розширив довжину контексту до 100 тисяч токенів. LongLLaMA, у свою чергу, розширив довжину контексту до 256 тисяч токенів і навіть більше.
Внутрішня сторона, певна стартап-компанія запустила продукт розумного помічника, який підтримує введення тексту обсягом близько 400k токенів. Технологія LongLoRA, розроблена в співпраці між Гонконзьким університетом і MIT, може розширити довжину тексту для моделі 7B до 100k токенів, а для моделі 70B до 32k токенів.
Наразі безліч провідних компаній з великими моделями та дослідницьких установ як в країні, так і за її межами розглядають розширення довжини контексту як основний напрямок оновлення. Ці компанії, як правило, є зірками, за якими полює капітальний ринок, і суми фінансування та оцінки постійно встановлюють нові рекорди.
Що означає, що компанії з великими моделями зосереджуються на технології довгих текстів? На перший погляд, це підвищення довжини введеного тексту та здатності до читання, від короткої статті до довгого роману. Глибший сенс полягає в тому, щоб сприяти впровадженню великих моделей у фінансовій, юстиційній, науковій та інших професійних сферах, задовольняючи потреби цих галузей у обробці довгих документів.
Однак, довжина тексту не завжди є важливою. Дослідження показують, що підтримка моделі для більш довгих контекстних вхідних даних не завжди призводить до покращення результатів, ключовим є те, як модель використовує контент контексту. Проте наразі в індустрії дослідження довжини тексту ще не досягли межі, 400000 токенів можуть бути лише початком.
Технологія довгих текстів привертає увагу, оскільки вона може вирішити деякі проблеми ранніх великих моделей, такі як забування важливої інформації в сценах віртуальних персонажів, обмежене генерування аналітики у професійних сферах тощо. Водночас, довгі тексти також є ключовою технологією для просування розвитку майбутніх агентів та нативних застосувань AI.
Довгі тексти можуть допомогти моделі точніше зрозуміти семантику, зменшити двозначність та підвищити точність міркувань, надаючи більше контексту та деталізованої інформації. Це знаменує перехід великих моделей від LLM до Long LLM.
Технологія довгих текстів демонструє багато переваг у практичному застосуванні: вона може швидко аналізувати ключові моменти довгих статей, витягувати ключову інформацію з фінансових звітів, реалізовувати запитання та відповіді на всю книгу; у сфері коду можна безпосередньо перетворювати наукові статті на код; також можна реалізувати функцію персоналізованого довгого діалогу, таку як рольові ігри. Ці функції сприяють розвитку діалогових роботів у напрямку більшої спеціалізації, персоналізації та глибини.
Однак, технології роботи з довгими текстами стикаються з дилемою "неможливого трикутника": між довжиною тексту, увагою та обчислювальною потужністю існує взаємне обмеження. Чим довше текст, тим важче зосередити увагу, а обробка довгих текстів потребує більше обчислювальної потужності. Ця дилема виникає через структуру Transformer, яку використовують більшість моделей, де обчислювальна складність механізму самостійної уваги зростає у квадратній залежності від довжини контексту.
В даний час існує три основні рішення: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислення механізму самовідстеження, оптимізація самого моделі. Кожне з рішень має свої переваги та недоліки, і знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю є викликом для постачальників великих моделей.
Хоча технології довгих текстів все ще мають простір для вдосконалення, вони представляють тенденцію розвитку великих моделей до вищого рівня, що обіцяє сприяти проривним застосуванням ШІ в більшій кількості професійних сфер.