ПРЯМО ЗАРАЗ: дослідження, проведене DeepSeek, свідчить, що великі мовні моделі витрачають занадто багато обчислювальних ресурсів на відтворення статичних знань у трансформері.


Їхнє рішення — Engram, умовний модуль пам’яті, який поєднує пошуки O(1) з архітектурою MoE, і який у внутрішніх тестах показав покращення у знаннях, логіці, програмуванні, математиці та завданнях із довгим контекстом.
Переглянути оригінал
post-image
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
User_anyvip
· 26хв. тому
LFG 🔥
відповісти на0
  • Закріпити