Розкриття трансформера в iPhone: на основі архітектури GPT-2 слово segmenter містить емодзі, створені випускниками MIT

Оригінальне джерело: Qubits

Джерело зображення: створено Unbounded AI‌

«Секрет» трансформера від Apple розкрили ентузіасти.

На хвилі великих моделей, навіть якщо ви такий консервативний, як Apple, ви повинні згадувати «Трансформер» на кожній прес-конференції.

Наприклад, на цьогорічному WWDC Apple оголосила, що нові версії iOS і macOS матимуть вбудовані мовні моделі Transformer, щоб забезпечити методи введення з можливостями передбачення тексту.

Представники Apple не розкрили більше ніякої інформації, але ентузіасти технологій не можуть сидіти на місці.

Хлопець на ім'я Джек Кук перевернув бета-версію macOS Sonoma з ніг на голову та дізнався багато свіжої інформації:

  • З точки зору архітектури моделі, брат Кук вважає, що мовна модель Apple більше базується на GPT-2.
  • З точки зору токенізера, емотикони є дуже помітними серед них.

Давайте розглянемо докладніше.

На основі архітектури GPT-2

По-перше, давайте розглянемо, які функції мовна модель Apple на основі Transformer може реалізувати на iPhone, MacBook та інших пристроях.

В основному відбивається на способі введення. Власний метод введення Apple, який підтримується мовною моделлю, може використовувати функції прогнозування слів і виправлення помилок.

Брат Джек Кук перевірив її спеціально та виявив, що ця функція в основному передбачає передбачення окремих слів.

** **### Джерело: публікація в блозі Джека Кука

Модель іноді передбачає кілька наступних слів, але це обмежено ситуаціями, коли семантика речення дуже очевидна, подібно до функції автозаповнення в Gmail.

** **### Джерело: публікація в блозі Джека Кука

Так де саме встановлена ця модель? Після деяких глибоких копань брат Кук визначив:

Я знайшов модель інтелектуального тексту в //Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle.

Оскільки:

  1. Багато файлів у unilm.bundle не існують у macOS Ventura (13.5) і з’являються лише в новій версії macOS Sonoma beta (14.0).
  2. У unilm.bundle є файл sp.dat, який можна знайти як у бета-версії Ventura, так і в бета-версії Sonoma, але бета-версію Sonoma було оновлено набором токенів, які, очевидно, схожі на токенизатор.
  3. Кількість токенів у sp.dat може відповідати двом файлам у unilm.bundle - unilm_joint_cpu.espresso.shape та unilm_joint_ane.espresso.shape. Ці два файли описують форму кожного шару в моделі Espresso/CoreML.

Крім того, на основі структури мережі, описаної в unilm_joint_cpu, я припустив, що модель Apple базується на архітектурі GPT-2:

В основному він включає вбудовування маркерів, кодування позиції, блок декодера та вихідний рівень. Кожен блок декодера має такі слова, як gpt2_transformer_layer_3d.

** **### Джерело: публікація в блозі Джека Кука

Виходячи з розміру кожного шару, я також припустив, що модель Apple має приблизно 34 мільйони параметрів, а розмір прихованого шару становить 512. Тобто він менший за найменшу версію GPT-2.

Я вважаю, що це головним чином тому, що Apple хоче модель, яка споживає менше енергії, але може працювати швидко та часто.

Офіційна заява Apple на WWDC полягає в тому, що «кожного натискання клавіші iPhone запускатиме модель один раз».

Однак це також означає, що ця модель передбачення тексту не дуже добре продовжує речення або абзаци повністю.

** **### Джерело: публікація в блозі Джека Кука

Крім архітектури моделі, Кук також розкопав інформацію про токенизатор.

У unilm.bundle/sp.dat він знайшов набір із 15 000 токенів, варто зазначити, що він містить 100 емодзі.

Кухар розкриває Кука

Хоча цей кухар не кухар, мій допис у блозі все одно привернув багато уваги, щойно його опублікували.

Грунтуючись на його висновках, користувачі мережі з ентузіазмом обговорювали підхід Apple до збалансування взаємодії з користувачем і передових технологій.

Повернемося до самого Джека Кука. Він закінчив Массачусетський технологічний інститут зі ступенем бакалавра та магістра комп’ютерних наук, а зараз навчається на ступені магістра соціальних наук в Інтернеті в Оксфордському університеті.

Раніше він стажувався в NVIDIA, зосереджуючись на дослідженні мовних моделей, таких як BERT. Він також є старшим інженером з досліджень і розробок обробки природної мови в The New York Times.

Отже, його одкровення також викликало у вас якісь думки? Ласкаво просимо поділитися своїми думками в області коментарів ~

Оригінальне посилання:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити