Révéler le Transformer dans l'iPhone : basé sur l'architecture GPT-2, le segmenteur de mots contient des emoji, produits par des anciens élèves du MIT

Source originale : Qubits

Source de l'image : générée par Unbounded AI‌

Le "secret" du Transformer d'Apple a été révélé par des passionnés.

Dans la vague des grands modèles, même si l'on est aussi conservateur qu'Apple, il faut mentionner « Transformer » à chaque conférence de presse.

Par exemple, lors de la WWDC de cette année, Apple a annoncé que les nouvelles versions d'iOS et de macOS auront des modèles de langage Transformer intégrés pour fournir des méthodes de saisie avec des capacités de prédiction de texte.

Les responsables d’Apple n’ont pas révélé davantage d’informations, mais les passionnés de technologie ne peuvent pas rester les bras croisés.

Un gars nommé Jack Cook a bouleversé la version bêta de macOS Sonoma et a découvert de nombreuses nouvelles informations :

  • En termes d'architecture de modèle, Brother Cook estime que le modèle linguistique d'Apple est davantage basé sur GPT-2.
  • En termes de tokenizer, les émoticônes sont très importantes parmi elles.

Jetons un coup d'oeil à plus de détails.

Basé sur l'architecture GPT-2

Tout d’abord, examinons les fonctions que le modèle de langage basé sur Transformer d’Apple peut implémenter sur iPhone, MacBook et autres appareils.

Cela se reflète principalement dans la méthode de saisie. La propre méthode de saisie d'Apple, prise en charge par le modèle de langage, peut réaliser des fonctions de prédiction de mots et de correction d'erreurs.

Frère Jack Cook l'a testé spécifiquement et a découvert que cette fonction implémentait principalement la prédiction de mots simples.

** **### Source : article de blog de Jack Cook

Le modèle prédit parfois plusieurs mots à venir, mais cela est limité aux situations où la sémantique de la phrase est très évidente, similaire à la fonction de saisie semi-automatique de Gmail.

** **### Source : article de blog de Jack Cook

Alors, où exactement ce modèle est-il installé ? Après quelques recherches approfondies, frère Cook a déterminé :

J'ai trouvé le modèle de texte prédictif dans //Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle.

Parce que:

  1. De nombreux fichiers unilm.bundle n'existent pas dans macOS Ventura (13.5) et n'apparaissent que dans la nouvelle version de macOS Sonoma bêta (14.0).
  2. Il existe un fichier sp.dat dans unilm.bundle, qui peut être trouvé dans les versions bêta de Ventura et de Sonoma. Cependant, la version bêta de Sonoma a été mise à jour avec un ensemble de jetons qui ressemblent évidemment à un tokenizer.
  3. Le nombre de jetons dans sp.dat peut correspondre aux deux fichiers dans unilm.bundle - unilm_joint_cpu.espresso.shape et unilm_joint_ane.espresso.shape. Ces deux fichiers décrivent la forme de chaque couche dans le modèle Espresso/CoreML.

De plus, sur la base de la structure du réseau décrite dans unilm_joint_cpu, j'ai supposé que le modèle Apple est basé sur l'architecture GPT-2 :

Il comprend principalement l'intégration de jetons, le codage de position, le bloc décodeur et la couche de sortie. Chaque bloc décodeur contient des mots tels que gpt2_transformer_layer_3d.

** **### Source : article de blog de Jack Cook

Sur la base de la taille de chaque couche, j'ai également supposé que le modèle Apple comporte environ 34 millions de paramètres et que la taille de la couche cachée est de 512. Autrement dit, il est plus petit que la plus petite version de GPT-2.

Je pense que c'est principalement parce qu'Apple souhaite un modèle qui consomme moins d'énergie mais qui puisse fonctionner rapidement et fréquemment.

La déclaration officielle d'Apple à la WWDC est que "chaque fois que vous cliquez sur une touche, l'iPhone exécutera le modèle une fois".

Cependant, cela signifie également que ce modèle de prédiction de texte n’est pas très efficace pour poursuivre complètement des phrases ou des paragraphes.

** **### Source : article de blog de Jack Cook

En plus de l'architecture du modèle, Cook a également découvert des informations sur le tokenizer.

Il a trouvé un ensemble de 15 000 jetons dans unilm.bundle/sp.dat. Il convient de noter qu'il contient 100 emoji.

Cook révèle Cook

Bien que ce cuisinier ne soit pas un cuisinier, mon article de blog a quand même attiré beaucoup d'attention dès sa publication.

Sur la base de ses découvertes, les internautes ont discuté avec enthousiasme de l'approche d'Apple visant à équilibrer l'expérience utilisateur et les applications technologiques de pointe.

Pour en revenir à Jack Cook lui-même, il est diplômé du MIT avec un baccalauréat et une maîtrise en informatique, et étudie actuellement une maîtrise en sciences sociales sur Internet à l'Université d'Oxford.

Auparavant, il a effectué un stage chez NVIDIA, se concentrant sur la recherche de modèles de langage tels que BERT. Il est également ingénieur principal en recherche et développement pour le traitement du langage naturel au New York Times.

Alors, sa révélation a-t-elle également déclenché des réflexions dans votre esprit ? Bienvenue pour partager votre point de vue dans la zone de commentaires ~

Lien d'origine :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)