Щойно запис параметрів вітчизняної моделі з відкритим кодом знову оновлено!
20 вересня Шанхайська лабораторія штучного інтелекту (Shanghai AI Laboratory) і SenseTime у співпраці з Китайським університетом Гонконгу та Університетом Фудань офіційно відкрили модель InternLM-20B з 20 мільярдами параметрів.
адреса проекту:
Чарівна спільнота:
Цього разу можна сказати, що версія великої моделі Shusheng·Puyu з 20 мільярдами параметрів «збільшує кількість без підвищення ціни». Кількість параметрів менше однієї третини, але її продуктивність може конкурувати з еталоном сьогоднішнього моделі з відкритим кодом - Llama2-70B. Поточні основні моделі 13B з відкритим кодом поступаються InternLM-20B у всіх вимірах.
Крім того, одночасно була оновлена повна система інструментів для розробки та застосування великих моделей.
Від самої моделі з відкритим кодом до всього ланцюга інструментів з відкритим кодом, цього разу Шанхайська лабораторія штучного інтелекту представила всі скарби, накопичені в результаті власних широкомасштабних досліджень і розробок моделей, сподіваючись допомогти дослідникам, установам і соціальним практикам .. Кожен може взяти участь у технологічній революції, спричиненій великими моделями, за дуже низькими витратами та порогом.
Продуктивність є «провідною у своєму класі», а threshold «готовий до використання прямо з коробки».InternLM-20B є каталізатором і новою точкою опори для великих моделей, які просуваються у тисячі галузей!
Ця хвиля великих моделей стане в нагоді всім.
Все, що ми використовуємо, є відкритим кодом
Як ми всі знаємо, у всій системі досліджень і розробок великих моделей є кілька зв’язаних разом ланок, які є дуже складним набором замкнутих циклів.
Як організувати це більш стандартизованим способом? Як використовувати базову модель після її отримання? Яких запобіжних заходів слід вжити під час покрокового процесу впровадження? Всюди проблеми.
Після реальної практики в щоденній роботі команда Shanghai AI Laboratory накопичила низку цінного досвіду.
Тепер, щоб процвітати екосистема з відкритим вихідним кодом, вони просто відкривають вихідний код для всіх інструментів, задіяних у моделі, від підготовки даних до попереднього навчання, розгортання та оцінювання програм.
Розшифруйте "Ексклюзивну формулу"
Важливість даних для великих моделей схожа на сировину для виробництва. Без джерела енергії вони не можуть керувати роботою інтелектуальних систем ШІ. Зокрема, високоякісні дані є одним із ключових елементів для індустріалізації великих моделей.
З точки зору збору, необхідно не тільки ефективно фільтрувати та очищати оригінальні матеріали, скановані з різних каналів, таких як веб-сторінки, книги, професійні звіти та статті, але також повною мірою використовувати відгуки, надані користувачами внутрішнього тестування моделі.
Однак для того, щоб LLM набув ключових можливостей, таких як розуміння, програмування та логічне мислення, і став справжнім «шестикутним воїном», важливіше конструювати дані самі по собі.
У цьому відношенні академічні дослідження також є дуже активними.Наприклад, «Підручники — це все, що вам потрібно» від Microsoft може досягти відносної переваги в еталонному тесті, побудувавши модель phi-1, навчену даними.
Що стосується команди Шанхайської лабораторії штучного інтелекту, то вони вирішили будувати дані не в одному напрямку, а в «повному вимірі», відсортувавши всю систему знань і побудувавши корпус.
Тому щільність знань і логіки в цих корпусах дуже висока.
Додавання невеликої кількості «каталізатора» до великої кількості звичайного вмісту може не тільки краще стимулювати ключові можливості LLM, але й дозволить моделі краще засвоювати та розуміти відповідну інформацію.
За словами Ліна Дахуа, провідного вченого Шанхайської лабораторії штучного інтелекту, «у певному сенсі один токен може бути еквівалентним ефективності 10 або навіть 100 традиційних жетонів».
З точки зору обчислювальної потужності, за винятком великих інтернет-компаній, які мають великі ресурси, більшості розробників із спільноти відкритих кодів важко отримати більшу обчислювальну потужність.
«Я сподіваюся, що будуть легкі інструменти, які зможуть використовувати цю модель». Це найбільше відгуків від спільноти, які отримала Shanghai AI Lab.
Завдяки легкому інструменту тонкого налаштування XTuner з відкритим кодом користувачі можуть використовувати власні дані для точного налаштування моделі з відкритим кодом Шанхайської лабораторії штучного інтелекту на графічному процесорі споживчого класу 8 ГБ.
Крім того, з точки зору застосування моделі, «чат-діалог» все ще є дуже важливою частиною можливостей моделі.
Шанхайська лабораторія штучного інтелекту також хоче підкреслити, що велика модель служить центральним центром і використовує інструменти для вирішення проблем, подібно до того, як Code Interpreter викликає інструменти.
Водночас під час цього процесу велика модель також може виконувати саморефлексію.Це величезний потенціал інтелектуальних агентів за підтримки LLM.
Лін Дахуа вважає, що Agent буде дуже цінним напрямком для довгострокового розвитку, який потрібно вивчити.
В останньому світі інтелектуальних агентів весь організаційний поділ праці продовжуватиме вдосконалюватися та розвиватися. У майбутньому, безперечно, буде багато інтелектуальних агентів, які співіснуватимуть, кожен зі своєю сферою знань, і буде багато технологій що може сприяти спілкуванню між ними. .
Отже, де конкретне оновлення цього ланцюжка інструментів?
- Дані: відкритий вихідний код OpenDataLab «Scholar·Ten Thousand Volumes» для попереднього навчання
Що стосується даних, мультимодальний навчальний корпус Scholar·Wanjuan 1.0 був офіційно відкритий 14 серпня. Загальний обсяг даних перевищує 2 ТБ, включаючи набір текстових даних, набір графічних даних і набір відеоданих.
Завдяки «перетравленню» високоякісного корпусу моделі серії Shusheng продемонстрували чудову продуктивність у різних генеративних завданнях, таких як семантичне розуміння, запитання та відповідь на знання, візуальне розуміння та візуальне запитання та відповідь.
Наразі було майже 100 000 завантажень.
- Попереднє навчання: ефективна структура попереднього навчання InternLM
На етапі попереднього навчання склад InternLM також відкрив вихідний код для попереднього навчання InternLM-Train.
З одного боку, він глибоко інтегрує оператори моделі Transformer для підвищення ефективності навчання, з іншого боку, пропонує унікальну технологію Hybrid Zero для досягнення ефективного перекриття обчислень і зв’язку, значно зменшуючи міжвузловий трафік під час навчання.
Завдяки максимальній оптимізації продуктивності ця система з відкритим вихідним кодом досягає високої ефективності паралельних обчислень кілокарт, а її ефективність навчання досягла провідного в галузі рівня.
Недорогий набір інструментів тонкого налаштування великої моделі XTuner також нещодавно отримав відкритий код, підтримуючи різноманітні великі моделі з відкритим кодом, такі як Llama, а також алгоритми точного налаштування, такі як LoRA та QLoRA.
З точки зору апаратних вимог, XTuner потребує лише мінімум 8 ГБ відеопам’яті для виконання недорогого тонкого налаштування моделі 7B. Точне налаштування моделі 20B також можна виконати на графічній карті споживчого класу з 24 ГБ. відеопам'ять.
XTuner надає різноманітні фреймворки тонкого налаштування для різних моделей з відкритим кодом
- Розгортання: LMDeploy підтримує ефективний висновок від мільярдів до сотень мільярдів моделей мови параметрів
Що стосується розгортання, LMDeploy охоплює повний набір легких рішень для розгортання та обслуговування для великих моделей.
Він підтримує ефективне визначення моделі від одного мільярда до ста мільярдів параметрів і перевершує основні проекти спільноти з відкритим кодом FasterTransformer, vLLM, Deepspeed тощо за пропускною здатністю та іншою продуктивністю.
- Оцінювання: універсальна платформа для оцінки великої моделі OpenCompass
У частині оцінювання платформа оцінювання великої моделі з відкритим кодом OpenCompass забезпечує систему оцінювання в п’яти вимірах: предмет, мова, знання, розуміння та міркування.
У той же час він також підтримує 50+ наборів оціночних даних, 300 000 оцінювальних запитань, а також підтримує нульову вибірку, невелику вибірку та оцінювання ланцюга мислення.Наразі це найповніша платформа оцінювання з відкритим кодом.
-Застосування: Lagent легкий і гнучкий каркас агента
На останньому етапі застосування команда Шанхайської лабораторії штучного інтелекту зосередилася на агенті, розробивши легку та гнучку структуру агента Lagent із відкритим кодом.
Він може допомогти користувачам швидко трансформувати велику мовну модель у кілька типів агентів і надати типові інструменти для розширення можливостей великих мовних моделей.
Ця структура з відкритим вихідним кодом об’єднує різні типи можливостей агента, включаючи класичний ReAct, AutoGPT і ReWoo.
Структура коду цього фреймворку не тільки зрозуміла, але й проста. Маючи менше 20 рядків коду, розробники можуть створити власний агент.
Крім того, Lagent підтримує кілька великих моделей, включаючи InternLM, Llama, ChatGPT.
Завдяки підтримці Lagent ці агенти можуть викликати великі мовні моделі для планування міркувань і виклику інструментів, а також можуть проводити своєчасні роздуми та самовиправлення під час процесу виконання.
Перший вітчизняний контекст 16k, 20 мільярдів параметрів, пов’язаних з Llama2-70B
На додаток до повного набору великих модельних ланцюжків інструментів, Шанхайська лабораторія штучного інтелекту також має нещодавно відкритий код InternLM-20B із до 20 мільярдів параметрів.
Результати оцінювання показують, що серед моделей з відкритим вихідним кодом такого ж масштабу InternLM-20B цілком заслужено має найкращу загальну продуктивність.
- Підтримка наддовгого контексту
По-перше, з точки зору довжини контексту, InternLM-20B може підтримувати контекстні вікна до 16K.
Як показано на малюнку нижче, InternLM-20B зміг точно відповісти на три запитання після прочитання довгої статті новин про відомий бренд кави.
Для надзвичайно довгих статей і звітів InternLM-20B також може точно витягувати тези.
Наприклад, після введення класичної статті ResNet він негайно пише резюме, в якому точно підсумовуються основні ідеї та експериментальні результати ResNet.
- Викличте інструменти та станьте самоучкою
По-друге, завдяки підтримці довгого контексту можливості моделі значно розширюються, і з’являється більше місця для виклику інструментів, пояснення коду, а також для рефлексії та виправлення. І це стало ключовою технологією для створення інтелектуальних тіл на InternLM-20B.
Тепер InternLM-20B може не тільки підтримувати виведення вмісту в десятках напрямків, таких як дата, погода, подорожі, спорт тощо, а також десятки тисяч різних API, але також може викликати інструменти подібно до Інтерпретатора коду. .
Водночас у цьому процесі він також може відображати та переглядати та з’єднуватися з реальними сценами.
У ToolBench, великому наборі інструментів для оцінки викликів, спільно випущеному Університетом Цінхуа та іншими установами, InternLM-20B досяг показника виграшу 63,5% порівняно з ChatGPT, досягнувши найкращого результату в списку.
Крім того, модель InternLM-20B також демонструє певні можливості узагальнення нульової вибірки. Навіть якщо модель не вивчила деякі інструменти під час процесу навчання, вона все одно може викликати інструменти на основі описів інструментів і запитань користувача.
Як показано на малюнку нижче, якщо ви надасте йому деякі інструменти штучного інтелекту, він зможе планувати та міркувати самостійно та вирішувати проблеми користувача.
- Всебічне лідерство в тій же ваговій категорії
У загальному тестовому наборі до 50 моделей різних розмірів InternLM-20B також досягла найкращої загальної продуктивності серед моделей з відкритим кодом такого ж масштабу.
У той же час він також явно перевершив більший Llama-33B з точки зору середньої продуктивності, а в деяких оцінках навіть трохи перевершив Llama2-70B.
Зокрема, InternLM-20B має відмінні результати в комплексному оцінюванні предметів MMLU, C- і AGI і займає лідируючу позицію серед моделей з відкритим кодом такого ж масштабу.
Особливо на C- та AGI, які включають китайське предметне обстеження, продуктивність значно перевищила Llama2-70B.
В оцінці, яка перевіряє фактичні знання, InternLM-20B значно перевершує модель 13B і може конкурувати з Llama-33B.
Але певний розрив у порівнянні з Llama-65B або Llama2-70B все ж є.
З точки зору здатності розуміння продуктивність InternLM-20B є ще більш видатною, перевершуючи всі моделі з відкритим кодом, включаючи Llama2-70B.
Міркування є «каменем спотикання», який підвів багато моделей. Воно перевіряє здатність великих моделей заробляти реальні гроші, а також значною мірою визначає, чи може модель підтримувати практичне застосування.
У наступних чотирьох наборах оцінки висновків результати InternLM-20B перевершили основну модель 13B з відкритим кодом і навіть наблизилися до можливостей висновку Llama-65B.
З точки зору можливостей програмування, InternLM-20B також був значно вдосконалений. У двох типових наборах оцінки Human і MBPP він близький до Llama2-70B.
Примітка: жирні шрифти на наведених вище знімках екрана є найкращими результатами в діапазоні 13B-33B.
В останньому списку Open LLM Leaderboard, опублікованому HuggingFace, InternLM-20B лідирує за середнім балом серед базових моделей з параметрами нижче 60B, а також перевершує Llama-65B.
- Більш безпечна модель з відкритим кодом
Нарешті, з точки зору вирівнювання цінностей, InternLM-20B також повніший і безпечніший.
Якщо ви поставите йому упереджене запитання, він негайно виявить небезпечні фактори та надасть правильні вказівки щодо значення.
Великі моделі ніколи не були виключною власністю великих виробників.
Після того, як почалася хвиля великих моделей, нам потрібно зосередитися не лише на тому, щоб очолити список оцінювання, а й на тому, як перетворити великі моделі з «перлини ШІ» на «нову продуктивність», яку можна використовувати в тисяч галузей.
Протягом всієї історії технології, які дійсно ведуть час, є не просто руйнівними інноваціями, але, що важливіше, вони недорогі, малопорогові та доступні кожному. Але такі великі компанії, як OpenAI і Google, ніколи не оприлюднять конкретні деталі.
І це початковий намір Шанхайської лабораторії ШІ.
З моменту запуску в червні Shusheng Puyu завершив кілька раундів оновлень і мав великий вплив на спільноту та індустрію з відкритим кодом.
Більше того, окрім відкриття коду на GitHub і розміщення моделей у спільнотах HuggingFace і Moda, Шанхайська лабораторія штучного інтелекту навіть надсилає спеціального персоналу, який щодня читає відгуки спільноти та ретельно відповідає на запитання користувачів.
Раніше модель LLaMA від Meta була з відкритим вихідним кодом, що викликало шалену заміну ChatGPT і започаткувало момент стабільної дифузії для великих текстових моделей.
Подібно до процвітаючої екосистеми сімейства альпака сьогодні, зусилля Шанхайської лабораторії штучного інтелекту з відкритим кодом безперечно принесуть незмірну цінність суспільству.
Для активних розробників і дослідників у всьому світі Shusheng Puyu надасть базу помірного розміру, але з дуже потужними можливостями.
Хоча більшість компаній, особливо малих і середніх, помітили тенденцію до великих моделей, вони навряд чи витрачатимуть багато грошей на придбання обчислювальної потужності та залучення найкращих талантів, як великі виробники.
Фактично, починаючи з Конференції зі штучного інтелекту 6 липня, Шанхайська лабораторія штучного інтелекту займається відкритим кодом у всьому ланцюжку. Наприклад, XTuner дозволяє користувачам легко тренувати власні моделі, використовуючи лише деякі власні дані.
Мало того, команда об’єднала запитання, корпус, документи та модель XTuner спільноти з відкритим кодом, щоб навчити службу підтримки клієнтів спільноти з відкритим кодом. Це реальний внесок у спільноту з відкритим кодом.
Насправді Шанхайська лабораторія штучного інтелекту поділилася зі спільнотою всією своєю технічною системою (тобто повною системою інструментів, згаданою вище).
У всьому суспільстві є так багато галузей, так багато компаній, так багато інституцій і розробників. Якщо вони справді зможуть усвідомити цінність великих моделей, це стане дуже важливою силою.
У них нескінченна творчість, єдине, чого їм не вистачає, це ресурсів.
«Допомога Шанхайської лабораторії штучного інтелекту у важкі часи» однозначно дозволить великим моделям мати величезну цінність у сфері впровадження.
Як сказав Лін Дахуа——
Як лабораторія, ми можемо надати базові моделі та низку інструментів, які інтегрують ноу-хау різних галузей промисловості в дані та можливості моделей, роблять їх дуже простими у використанні та навчають більше людей використовувати їх, щоб вони могли використовуватися в різних галузях.Є квіти і фрукти.
Посилання з відкритим вихідним кодом повної системи інструментів
Корпус попередньої підготовки «Scholar·Ten Thousand Volume»:
Рамки попереднього навчання InternLM:
Набір інструментів тонкого налаштування XTuner:
Ланцюжок інструментів висновку LMDeploy:
Платформа оцінки великої моделі OpenCompas:
Структура агента Lagent:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Продуктивність великої моделі 20B порівнянна з Llama2-70B! Повністю відкритий вихідний код, все, від основи до інструментів, чітко організовано.
**Джерело:**Xinzhiyuan
Щойно запис параметрів вітчизняної моделі з відкритим кодом знову оновлено!
20 вересня Шанхайська лабораторія штучного інтелекту (Shanghai AI Laboratory) і SenseTime у співпраці з Китайським університетом Гонконгу та Університетом Фудань офіційно відкрили модель InternLM-20B з 20 мільярдами параметрів.
адреса проекту:
Чарівна спільнота:
Цього разу можна сказати, що версія великої моделі Shusheng·Puyu з 20 мільярдами параметрів «збільшує кількість без підвищення ціни». Кількість параметрів менше однієї третини, але її продуктивність може конкурувати з еталоном сьогоднішнього моделі з відкритим кодом - Llama2-70B. Поточні основні моделі 13B з відкритим кодом поступаються InternLM-20B у всіх вимірах.
Крім того, одночасно була оновлена повна система інструментів для розробки та застосування великих моделей.
Від самої моделі з відкритим кодом до всього ланцюга інструментів з відкритим кодом, цього разу Шанхайська лабораторія штучного інтелекту представила всі скарби, накопичені в результаті власних широкомасштабних досліджень і розробок моделей, сподіваючись допомогти дослідникам, установам і соціальним практикам .. Кожен може взяти участь у технологічній революції, спричиненій великими моделями, за дуже низькими витратами та порогом.
Продуктивність є «провідною у своєму класі», а threshold «готовий до використання прямо з коробки».InternLM-20B є каталізатором і новою точкою опори для великих моделей, які просуваються у тисячі галузей!
Ця хвиля великих моделей стане в нагоді всім.
Все, що ми використовуємо, є відкритим кодом
Як ми всі знаємо, у всій системі досліджень і розробок великих моделей є кілька зв’язаних разом ланок, які є дуже складним набором замкнутих циклів.
Як організувати це більш стандартизованим способом? Як використовувати базову модель після її отримання? Яких запобіжних заходів слід вжити під час покрокового процесу впровадження? Всюди проблеми.
Після реальної практики в щоденній роботі команда Shanghai AI Laboratory накопичила низку цінного досвіду.
Тепер, щоб процвітати екосистема з відкритим вихідним кодом, вони просто відкривають вихідний код для всіх інструментів, задіяних у моделі, від підготовки даних до попереднього навчання, розгортання та оцінювання програм.
Розшифруйте "Ексклюзивну формулу"
Важливість даних для великих моделей схожа на сировину для виробництва. Без джерела енергії вони не можуть керувати роботою інтелектуальних систем ШІ. Зокрема, високоякісні дані є одним із ключових елементів для індустріалізації великих моделей.
З точки зору збору, необхідно не тільки ефективно фільтрувати та очищати оригінальні матеріали, скановані з різних каналів, таких як веб-сторінки, книги, професійні звіти та статті, але також повною мірою використовувати відгуки, надані користувачами внутрішнього тестування моделі.
Однак для того, щоб LLM набув ключових можливостей, таких як розуміння, програмування та логічне мислення, і став справжнім «шестикутним воїном», важливіше конструювати дані самі по собі.
У цьому відношенні академічні дослідження також є дуже активними.Наприклад, «Підручники — це все, що вам потрібно» від Microsoft може досягти відносної переваги в еталонному тесті, побудувавши модель phi-1, навчену даними.
Тому щільність знань і логіки в цих корпусах дуже висока.
Додавання невеликої кількості «каталізатора» до великої кількості звичайного вмісту може не тільки краще стимулювати ключові можливості LLM, але й дозволить моделі краще засвоювати та розуміти відповідну інформацію.
За словами Ліна Дахуа, провідного вченого Шанхайської лабораторії штучного інтелекту, «у певному сенсі один токен може бути еквівалентним ефективності 10 або навіть 100 традиційних жетонів».
З точки зору обчислювальної потужності, за винятком великих інтернет-компаній, які мають великі ресурси, більшості розробників із спільноти відкритих кодів важко отримати більшу обчислювальну потужність.
«Я сподіваюся, що будуть легкі інструменти, які зможуть використовувати цю модель». Це найбільше відгуків від спільноти, які отримала Shanghai AI Lab.
Завдяки легкому інструменту тонкого налаштування XTuner з відкритим кодом користувачі можуть використовувати власні дані для точного налаштування моделі з відкритим кодом Шанхайської лабораторії штучного інтелекту на графічному процесорі споживчого класу 8 ГБ.
Крім того, з точки зору застосування моделі, «чат-діалог» все ще є дуже важливою частиною можливостей моделі.
Шанхайська лабораторія штучного інтелекту також хоче підкреслити, що велика модель служить центральним центром і використовує інструменти для вирішення проблем, подібно до того, як Code Interpreter викликає інструменти.
Водночас під час цього процесу велика модель також може виконувати саморефлексію.Це величезний потенціал інтелектуальних агентів за підтримки LLM.
Лін Дахуа вважає, що Agent буде дуже цінним напрямком для довгострокового розвитку, який потрібно вивчити.
В останньому світі інтелектуальних агентів весь організаційний поділ праці продовжуватиме вдосконалюватися та розвиватися. У майбутньому, безперечно, буде багато інтелектуальних агентів, які співіснуватимуть, кожен зі своєю сферою знань, і буде багато технологій що може сприяти спілкуванню між ними. .
Отже, де конкретне оновлення цього ланцюжка інструментів?
- Дані: відкритий вихідний код OpenDataLab «Scholar·Ten Thousand Volumes» для попереднього навчання
Що стосується даних, мультимодальний навчальний корпус Scholar·Wanjuan 1.0 був офіційно відкритий 14 серпня. Загальний обсяг даних перевищує 2 ТБ, включаючи набір текстових даних, набір графічних даних і набір відеоданих.
Завдяки «перетравленню» високоякісного корпусу моделі серії Shusheng продемонстрували чудову продуктивність у різних генеративних завданнях, таких як семантичне розуміння, запитання та відповідь на знання, візуальне розуміння та візуальне запитання та відповідь.
Наразі було майже 100 000 завантажень.
- Попереднє навчання: ефективна структура попереднього навчання InternLM
На етапі попереднього навчання склад InternLM також відкрив вихідний код для попереднього навчання InternLM-Train.
З одного боку, він глибоко інтегрує оператори моделі Transformer для підвищення ефективності навчання, з іншого боку, пропонує унікальну технологію Hybrid Zero для досягнення ефективного перекриття обчислень і зв’язку, значно зменшуючи міжвузловий трафік під час навчання.
Завдяки максимальній оптимізації продуктивності ця система з відкритим вихідним кодом досягає високої ефективності паралельних обчислень кілокарт, а її ефективність навчання досягла провідного в галузі рівня.
- Тонка настройка: повна точна настройка InternLM, легка точна настройка XTuner
Недорогий набір інструментів тонкого налаштування великої моделі XTuner також нещодавно отримав відкритий код, підтримуючи різноманітні великі моделі з відкритим кодом, такі як Llama, а також алгоритми точного налаштування, такі як LoRA та QLoRA.
З точки зору апаратних вимог, XTuner потребує лише мінімум 8 ГБ відеопам’яті для виконання недорогого тонкого налаштування моделі 7B. Точне налаштування моделі 20B також можна виконати на графічній карті споживчого класу з 24 ГБ. відеопам'ять.
- Розгортання: LMDeploy підтримує ефективний висновок від мільярдів до сотень мільярдів моделей мови параметрів
Що стосується розгортання, LMDeploy охоплює повний набір легких рішень для розгортання та обслуговування для великих моделей.
Він підтримує ефективне визначення моделі від одного мільярда до ста мільярдів параметрів і перевершує основні проекти спільноти з відкритим кодом FasterTransformer, vLLM, Deepspeed тощо за пропускною здатністю та іншою продуктивністю.
У частині оцінювання платформа оцінювання великої моделі з відкритим кодом OpenCompass забезпечує систему оцінювання в п’яти вимірах: предмет, мова, знання, розуміння та міркування.
У той же час він також підтримує 50+ наборів оціночних даних, 300 000 оцінювальних запитань, а також підтримує нульову вибірку, невелику вибірку та оцінювання ланцюга мислення.Наразі це найповніша платформа оцінювання з відкритим кодом.
На останньому етапі застосування команда Шанхайської лабораторії штучного інтелекту зосередилася на агенті, розробивши легку та гнучку структуру агента Lagent із відкритим кодом.
Він може допомогти користувачам швидко трансформувати велику мовну модель у кілька типів агентів і надати типові інструменти для розширення можливостей великих мовних моделей.
Структура коду цього фреймворку не тільки зрозуміла, але й проста. Маючи менше 20 рядків коду, розробники можуть створити власний агент.
Крім того, Lagent підтримує кілька великих моделей, включаючи InternLM, Llama, ChatGPT.
Завдяки підтримці Lagent ці агенти можуть викликати великі мовні моделі для планування міркувань і виклику інструментів, а також можуть проводити своєчасні роздуми та самовиправлення під час процесу виконання.
Перший вітчизняний контекст 16k, 20 мільярдів параметрів, пов’язаних з Llama2-70B
На додаток до повного набору великих модельних ланцюжків інструментів, Шанхайська лабораторія штучного інтелекту також має нещодавно відкритий код InternLM-20B із до 20 мільярдів параметрів.
Результати оцінювання показують, що серед моделей з відкритим вихідним кодом такого ж масштабу InternLM-20B цілком заслужено має найкращу загальну продуктивність.
- Підтримка наддовгого контексту
По-перше, з точки зору довжини контексту, InternLM-20B може підтримувати контекстні вікна до 16K.
Як показано на малюнку нижче, InternLM-20B зміг точно відповісти на три запитання після прочитання довгої статті новин про відомий бренд кави.
Наприклад, після введення класичної статті ResNet він негайно пише резюме, в якому точно підсумовуються основні ідеї та експериментальні результати ResNet.
По-друге, завдяки підтримці довгого контексту можливості моделі значно розширюються, і з’являється більше місця для виклику інструментів, пояснення коду, а також для рефлексії та виправлення. І це стало ключовою технологією для створення інтелектуальних тіл на InternLM-20B.
Тепер InternLM-20B може не тільки підтримувати виведення вмісту в десятках напрямків, таких як дата, погода, подорожі, спорт тощо, а також десятки тисяч різних API, але також може викликати інструменти подібно до Інтерпретатора коду. .
Водночас у цьому процесі він також може відображати та переглядати та з’єднуватися з реальними сценами.
У ToolBench, великому наборі інструментів для оцінки викликів, спільно випущеному Університетом Цінхуа та іншими установами, InternLM-20B досяг показника виграшу 63,5% порівняно з ChatGPT, досягнувши найкращого результату в списку.
Як показано на малюнку нижче, якщо ви надасте йому деякі інструменти штучного інтелекту, він зможе планувати та міркувати самостійно та вирішувати проблеми користувача.
У загальному тестовому наборі до 50 моделей різних розмірів InternLM-20B також досягла найкращої загальної продуктивності серед моделей з відкритим кодом такого ж масштабу.
У той же час він також явно перевершив більший Llama-33B з точки зору середньої продуктивності, а в деяких оцінках навіть трохи перевершив Llama2-70B.
Особливо на C- та AGI, які включають китайське предметне обстеження, продуктивність значно перевищила Llama2-70B.
Але певний розрив у порівнянні з Llama-65B або Llama2-70B все ж є.
У наступних чотирьох наборах оцінки висновків результати InternLM-20B перевершили основну модель 13B з відкритим кодом і навіть наблизилися до можливостей висновку Llama-65B.
В останньому списку Open LLM Leaderboard, опублікованому HuggingFace, InternLM-20B лідирує за середнім балом серед базових моделей з параметрами нижче 60B, а також перевершує Llama-65B.
Нарешті, з точки зору вирівнювання цінностей, InternLM-20B також повніший і безпечніший.
Якщо ви поставите йому упереджене запитання, він негайно виявить небезпечні фактори та надасть правильні вказівки щодо значення.
Великі моделі ніколи не були виключною власністю великих виробників.
Після того, як почалася хвиля великих моделей, нам потрібно зосередитися не лише на тому, щоб очолити список оцінювання, а й на тому, як перетворити великі моделі з «перлини ШІ» на «нову продуктивність», яку можна використовувати в тисяч галузей.
Протягом всієї історії технології, які дійсно ведуть час, є не просто руйнівними інноваціями, але, що важливіше, вони недорогі, малопорогові та доступні кожному. Але такі великі компанії, як OpenAI і Google, ніколи не оприлюднять конкретні деталі.
І це початковий намір Шанхайської лабораторії ШІ.
З моменту запуску в червні Shusheng Puyu завершив кілька раундів оновлень і мав великий вплив на спільноту та індустрію з відкритим кодом.
Раніше модель LLaMA від Meta була з відкритим вихідним кодом, що викликало шалену заміну ChatGPT і започаткувало момент стабільної дифузії для великих текстових моделей.
Подібно до процвітаючої екосистеми сімейства альпака сьогодні, зусилля Шанхайської лабораторії штучного інтелекту з відкритим кодом безперечно принесуть незмірну цінність суспільству.
Хоча більшість компаній, особливо малих і середніх, помітили тенденцію до великих моделей, вони навряд чи витрачатимуть багато грошей на придбання обчислювальної потужності та залучення найкращих талантів, як великі виробники.
Фактично, починаючи з Конференції зі штучного інтелекту 6 липня, Шанхайська лабораторія штучного інтелекту займається відкритим кодом у всьому ланцюжку. Наприклад, XTuner дозволяє користувачам легко тренувати власні моделі, використовуючи лише деякі власні дані.
Насправді Шанхайська лабораторія штучного інтелекту поділилася зі спільнотою всією своєю технічною системою (тобто повною системою інструментів, згаданою вище).
У них нескінченна творчість, єдине, чого їм не вистачає, це ресурсів.
«Допомога Шанхайської лабораторії штучного інтелекту у важкі часи» однозначно дозволить великим моделям мати величезну цінність у сфері впровадження.
Як сказав Лін Дахуа——
Як лабораторія, ми можемо надати базові моделі та низку інструментів, які інтегрують ноу-хау різних галузей промисловості в дані та можливості моделей, роблять їх дуже простими у використанні та навчають більше людей використовувати їх, щоб вони могли використовуватися в різних галузях.Є квіти і фрукти.
Посилання з відкритим вихідним кодом повної системи інструментів
Корпус попередньої підготовки «Scholar·Ten Thousand Volume»:
Рамки попереднього навчання InternLM:
Набір інструментів тонкого налаштування XTuner:
Ланцюжок інструментів висновку LMDeploy:
Платформа оцінки великої моделі OpenCompas:
Структура агента Lagent: