Серія Xiaomi MiMo-V2.5 з відкритим кодом: 1 трильйон параметрів за ліцензією MIT, ефективність токенів перевищує GPT-5.4 на ClawEval

robot
Генерація анотацій у процесі

Згідно з моніторингом Dongcha Beating, команда Xiaomi MiMo відкрила вихідний код серії великих моделей MiMo-V2.5, яка включає дві моделі, обидві під ліцензією MIT, що підтримують комерційне розгортання, подальше навчання та тонке налаштування, з контекстним вікном до 1 мільйона токенів. MiMo-V2.5-Pro — це чиста модель MoE (Мікс експертів) з 1,02 трильйонами параметрів і 42 мільярдами активних параметрів; MiMo-V2.5 — це нативна мультимодальна модель з 310 мільярдами параметрів і 15 мільярдами активних параметрів, що підтримує розуміння тексту, зображень, відео та аудіо. MiMo-V2.5-Pro переважно орієнтована на складні агентські та програмні завдання. У оцінюванні ClawEval V2.5-Pro досягла 64% Pass^3, досягаючи подібних рівнів при споживанні лише близько 70 000 токенів на кожну траєкторію завдання, що приблизно на 40% до 60% менше, ніж Claude Opus 4.6, Gemini 3.1 Pro і GPT-5.4. Оцінка SWE-bench Verified становить 78,9. У випадку, показаному на офіційному блозі, V2.5-Pro самостійно реалізувала повний компілятор SysY до RISC-V для проекту з принципів компіляторів у Пекінському університеті, витративши 4,3 години і 672 виклики інструментів, досягнувши ідеального результату 233/233 на прихованому тестовому наборі. MiMo-V2.5 розроблена для мультимодальних агентських сценаріїв, обладнана спеціальним візуальним енкодером (ViT з 729 мільйонами параметрів) і аудіо енкодером (з 261 мільйоном параметрів), що набрала 62,3 балів у Claw-Eval за загальним підмножиною. Обидві моделі використовують змішану архітектуру з увагою за допомогою ковзного вікна (SWA) та глобальну увагу (GA), а також модуль багатотокового передбачення (MTP) з 3 шарами (передбачення кількох токенів одночасно для прискорення інференсу). Ваги були опубліковані на Hugging Face. Разом із відкритим вихідним кодом команда MiMo запустила програму «Orbit Trillion Token Creator Incentive Program», яка пропонує загалом 100 трильйонів токенів безкоштовно для глобальних користувачів протягом 30 днів. Індивідуальні розробники, команди та підприємства можуть подати заявку на сторінці заходу, з періодом оцінки близько 3 робочих днів. Після затвердження переваги будуть нараховані у вигляді Token Plan або грантів, які можна безпосередньо використовувати з програмними інструментами, такими як Claude Code і Cursor.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити