DeepSeek最新 опубліковані статті розкривають цікаве технічне напрямок. Основна ідея полягає в тому, щоб незалежно від ваг моделі великих мовних моделей виділити частину довготривалої пам’яті та зберігати її у пам’яті апаратного забезпечення, що значно зменшує навантаження на відеопам’ять. У статті згадується технологічне рішення n-gram, яке базується на цій ідеї — зовнішнє зберігання довготривалих залежностей, а не внутрішніх параметрів моделі.



З апаратної точки зору, що означає така архітектура? Потреба у пам’яті значно зросте. З розвитком великих моделей у цьому напрямку, ринок DDR5 пам’яті може увійти у новий цикл зростання. Micron, як провідний постачальник пам’яті, у довгостроковій перспективі є вигодоотримувачем.

З інвестиційної точки зору, ціновий тиск на DDR5 пам’ять може продовжувати зростати. Якщо такі технологічні рішення дійсно будуть впроваджені та поширені, очікування подвоєння цього року цілком реальні — залежно від фактичних темпів тренування та розгортання моделей.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити