«Секрет» трансформера від Apple розкрили ентузіасти.
На хвилі великих моделей, навіть якщо ви такий консервативний, як Apple, ви повинні згадувати «Трансформер» на кожній прес-конференції.
Наприклад, на цьогорічному WWDC Apple оголосила, що нові версії iOS і macOS матимуть вбудовані мовні моделі Transformer, щоб забезпечити методи введення з можливостями передбачення тексту.
Представники Apple не розкрили більше ніякої інформації, але ентузіасти технологій не можуть сидіти на місці.
Хлопець на ім'я Джек Кук перевернув бета-версію macOS Sonoma з ніг на голову та дізнався багато свіжої інформації:
З точки зору архітектури моделі, брат Кук вважає, що мовна модель Apple більше базується на GPT-2.
З точки зору токенізера, емотикони є дуже помітними серед них.
Давайте розглянемо докладніше.
На основі архітектури GPT-2
По-перше, давайте розглянемо, які функції мовна модель Apple на основі Transformer може реалізувати на iPhone, MacBook та інших пристроях.
В основному відбивається на способі введення. Власний метод введення Apple, який підтримується мовною моделлю, може використовувати функції прогнозування слів і виправлення помилок.
Брат Джек Кук перевірив її спеціально та виявив, що ця функція в основному передбачає передбачення окремих слів.
** **### △Джерело: публікація в блозі Джека Кука
Модель іноді передбачає кілька наступних слів, але це обмежено ситуаціями, коли семантика речення дуже очевидна, подібно до функції автозаповнення в Gmail.
** **### △Джерело: публікація в блозі Джека Кука
Так де саме встановлена ця модель? Після деяких глибоких копань брат Кук визначив:
Я знайшов модель інтелектуального тексту в //Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle.
Оскільки:
Багато файлів у unilm.bundle не існують у macOS Ventura (13.5) і з’являються лише в новій версії macOS Sonoma beta (14.0).
У unilm.bundle є файл sp.dat, який можна знайти як у бета-версії Ventura, так і в бета-версії Sonoma, але бета-версію Sonoma було оновлено набором токенів, які, очевидно, схожі на токенизатор.
Кількість токенів у sp.dat може відповідати двом файлам у unilm.bundle - unilm_joint_cpu.espresso.shape та unilm_joint_ane.espresso.shape. Ці два файли описують форму кожного шару в моделі Espresso/CoreML.
Крім того, на основі структури мережі, описаної в unilm_joint_cpu, я припустив, що модель Apple базується на архітектурі GPT-2:
В основному він включає вбудовування маркерів, кодування позиції, блок декодера та вихідний рівень. Кожен блок декодера має такі слова, як gpt2_transformer_layer_3d.
** **### △Джерело: публікація в блозі Джека Кука
Виходячи з розміру кожного шару, я також припустив, що модель Apple має приблизно 34 мільйони параметрів, а розмір прихованого шару становить 512. Тобто він менший за найменшу версію GPT-2.
Я вважаю, що це головним чином тому, що Apple хоче модель, яка споживає менше енергії, але може працювати швидко та часто.
Офіційна заява Apple на WWDC полягає в тому, що «кожного натискання клавіші iPhone запускатиме модель один раз».
Однак це також означає, що ця модель передбачення тексту не дуже добре продовжує речення або абзаци повністю.
** **### △Джерело: публікація в блозі Джека Кука
Крім архітектури моделі, Кук також розкопав інформацію про токенизатор.
У unilm.bundle/sp.dat він знайшов набір із 15 000 токенів, варто зазначити, що він містить 100 емодзі.
Кухар розкриває Кука
Хоча цей кухар не кухар, мій допис у блозі все одно привернув багато уваги, щойно його опублікували.
Грунтуючись на його висновках, користувачі мережі з ентузіазмом обговорювали підхід Apple до збалансування взаємодії з користувачем і передових технологій.
Повернемося до самого Джека Кука. Він закінчив Массачусетський технологічний інститут зі ступенем бакалавра та магістра комп’ютерних наук, а зараз навчається на ступені магістра соціальних наук в Інтернеті в Оксфордському університеті.
Раніше він стажувався в NVIDIA, зосереджуючись на дослідженні мовних моделей, таких як BERT. Він також є старшим інженером з досліджень і розробок обробки природної мови в The New York Times.
Отже, його одкровення також викликало у вас якісь думки? Ласкаво просимо поділитися своїми думками в області коментарів ~
Оригінальне посилання:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Розкриття трансформера в iPhone: на основі архітектури GPT-2 слово segmenter містить емодзі, створені випускниками MIT
Оригінальне джерело: Qubits
«Секрет» трансформера від Apple розкрили ентузіасти.
На хвилі великих моделей, навіть якщо ви такий консервативний, як Apple, ви повинні згадувати «Трансформер» на кожній прес-конференції.
Наприклад, на цьогорічному WWDC Apple оголосила, що нові версії iOS і macOS матимуть вбудовані мовні моделі Transformer, щоб забезпечити методи введення з можливостями передбачення тексту.
Хлопець на ім'я Джек Кук перевернув бета-версію macOS Sonoma з ніг на голову та дізнався багато свіжої інформації:
Давайте розглянемо докладніше.
На основі архітектури GPT-2
По-перше, давайте розглянемо, які функції мовна модель Apple на основі Transformer може реалізувати на iPhone, MacBook та інших пристроях.
В основному відбивається на способі введення. Власний метод введення Apple, який підтримується мовною моделлю, може використовувати функції прогнозування слів і виправлення помилок.
**
**### △Джерело: публікація в блозі Джека Кука
Модель іноді передбачає кілька наступних слів, але це обмежено ситуаціями, коли семантика речення дуже очевидна, подібно до функції автозаповнення в Gmail.
**
**### △Джерело: публікація в блозі Джека Кука
Так де саме встановлена ця модель? Після деяких глибоких копань брат Кук визначив:
Оскільки:
Крім того, на основі структури мережі, описаної в unilm_joint_cpu, я припустив, що модель Apple базується на архітектурі GPT-2:
В основному він включає вбудовування маркерів, кодування позиції, блок декодера та вихідний рівень. Кожен блок декодера має такі слова, як gpt2_transformer_layer_3d.
**
**### △Джерело: публікація в блозі Джека Кука
Виходячи з розміру кожного шару, я також припустив, що модель Apple має приблизно 34 мільйони параметрів, а розмір прихованого шару становить 512. Тобто він менший за найменшу версію GPT-2.
Я вважаю, що це головним чином тому, що Apple хоче модель, яка споживає менше енергії, але може працювати швидко та часто.
Офіційна заява Apple на WWDC полягає в тому, що «кожного натискання клавіші iPhone запускатиме модель один раз».
Однак це також означає, що ця модель передбачення тексту не дуже добре продовжує речення або абзаци повністю.
**
**### △Джерело: публікація в блозі Джека Кука
Крім архітектури моделі, Кук також розкопав інформацію про токенизатор.
У unilm.bundle/sp.dat він знайшов набір із 15 000 токенів, варто зазначити, що він містить 100 емодзі.
Кухар розкриває Кука
Хоча цей кухар не кухар, мій допис у блозі все одно привернув багато уваги, щойно його опублікували.
Раніше він стажувався в NVIDIA, зосереджуючись на дослідженні мовних моделей, таких як BERT. Він також є старшим інженером з досліджень і розробок обробки природної мови в The New York Times.
Отже, його одкровення також викликало у вас якісь думки? Ласкаво просимо поділитися своїми думками в області коментарів ~
Оригінальне посилання: