Revelando o Transformer no iPhone: Baseado na arquitetura GPT-2, a palavra segmentador contém emoji, produzido por ex-alunos do MIT

Fonte original: Qubits

Fonte da imagem: gerada por Unbounded AI‌

O “segredo” do Transformer da Apple foi revelado por entusiastas.

Na onda dos modelos grandes, mesmo que você seja tão conservador quanto a Apple, deve mencionar “Transformer” em todas as coletivas de imprensa.

Por exemplo, na WWDC deste ano, a Apple anunciou que as novas versões do iOS e macOS terão modelos de linguagem Transformer integrados para fornecer métodos de entrada com recursos de previsão de texto.

Os responsáveis da Apple não revelaram mais informações, mas os entusiastas da tecnologia não podem ficar parados.

Um cara chamado Jack Cook virou o beta do macOS Sonoma de cabeça para baixo e descobriu muitas informações novas:

  • Em termos de arquitetura de modelo, o irmão Cook acredita que o modelo de linguagem da Apple é mais baseado em GPT-2.
  • Em termos de tokenizer, emoticons são muito proeminentes entre eles.

Vamos dar uma olhada em mais detalhes.

Baseado na arquitetura GPT-2

Primeiro, vamos revisar quais funções o modelo de linguagem baseado em Transformer da Apple pode implementar no iPhone, MacBook e outros dispositivos.

Refletido principalmente no método de entrada. O próprio método de entrada da Apple, suportado pelo modelo de linguagem, pode realizar funções de previsão de palavras e correção de erros.

O irmão Jack Cook testou-o especificamente e descobriu que esta função implementa principalmente a previsão de palavras isoladas.

** **### Fonte: postagem do blog Jack Cook

O modelo às vezes prevê várias palavras futuras, mas isso é limitado a situações em que a semântica da frase é muito óbvia, semelhante à função de preenchimento automático do Gmail.

** **### Fonte: postagem do blog Jack Cook

Então, onde exatamente esse modelo está instalado? Depois de pesquisar profundamente, o irmão Cook determinou:

Encontrei o modelo de texto preditivo em //Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle.

Porque:

  1. Muitos arquivos em unilm.bundle não existem no macOS Ventura (13.5) e aparecem apenas na nova versão do macOS Sonoma beta (14.0).
  2. Existe um arquivo sp.dat em unilm.bundle, que pode ser encontrado no Ventura e no Sonoma beta, mas a versão beta do Sonoma foi atualizada com um conjunto de tokens que obviamente se parecem com um tokenizer.
  3. O número de tokens em sp.dat pode corresponder aos dois arquivos em unilm.bundle - unilm_joint_cpu.espresso.shape e unilm_joint_ane.espresso.shape. Esses dois arquivos descrevem a forma de cada camada no modelo Espresso/CoreML.

Além disso, com base na estrutura de rede descrita em unilm_joint_cpu, especulei que o modelo Apple é baseado na arquitetura GPT-2:

Inclui principalmente incorporações de token, codificação de posição, bloco decodificador e camada de saída. Cada bloco decodificador possui palavras como gpt2_transformer_layer_3d.

** **### Fonte: postagem do blog Jack Cook

Com base no tamanho de cada camada, também especulei que o modelo Apple tem aproximadamente 34 milhões de parâmetros e o tamanho da camada oculta é 512. Ou seja, é menor que a menor versão do GPT-2.

Acredito que isso se deva principalmente ao fato de a Apple querer um modelo que consuma menos energia, mas que possa funcionar com rapidez e frequência.

A declaração oficial da Apple na WWDC é que “cada vez que uma tecla é clicada, o iPhone executará o modelo uma vez”.

No entanto, isso também significa que este modelo de previsão de texto não é muito bom para continuar frases ou parágrafos completamente.

** **### Fonte: postagem do blog Jack Cook

Além da arquitetura do modelo, Cook também desenterrou informações sobre o tokenizer.

Ele encontrou um conjunto de 15.000 tokens em unilm.bundle/sp.dat. Vale ressaltar que ele contém 100 emojis.

Cook revela Cook

Embora este cozinheiro não seja cozinheiro, meu post no blog ainda atraiu muita atenção assim que foi publicado.

Com base em suas descobertas, os internautas discutiram com entusiasmo a abordagem da Apple para equilibrar a experiência do usuário e os aplicativos de tecnologia de ponta.

De volta ao próprio Jack Cook, ele se formou no MIT com bacharelado e mestrado em ciência da computação, e atualmente está cursando mestrado em ciências sociais da Internet pela Universidade de Oxford.

Anteriormente, estagiou na NVIDIA, com foco na pesquisa de modelos de linguagem como BERT. Ele também é engenheiro sênior de pesquisa e desenvolvimento para processamento de linguagem natural no The New York Times.

Então, a revelação dele também despertou alguns pensamentos em você? Bem-vindo a compartilhar suas opiniões na área de comentários ~

Links originais:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)