“Bí mật” Transformer của Apple đã được giới đam mê tiết lộ.
Trong làn sóng các mẫu máy lớn, dù bạn có bảo thủ như Apple thì cũng phải nhắc đến “Transformer” trong mỗi buổi họp báo.
Ví dụ, tại WWDC năm nay, Apple đã thông báo rằng các phiên bản iOS và macOS mới sẽ được tích hợp sẵn các mô hình ngôn ngữ Transformer để cung cấp các phương thức nhập liệu với khả năng dự đoán văn bản.
Quan chức Apple không tiết lộ thêm thông tin gì nhưng giới đam mê công nghệ cũng không thể ngồi yên.
Một anh chàng tên Jack Cook đã lật ngược tình thế của macOS Sonoma beta và phát hiện ra rất nhiều thông tin mới:
Về mặt kiến trúc mô hình, Brother Cook tin rằng mô hình ngôn ngữ của Apple dựa nhiều hơn vào GPT-2.
Về mặt mã thông báo, biểu tượng cảm xúc rất nổi bật trong số đó.
Chúng ta hãy xem xét chi tiết hơn.
Dựa trên kiến trúc GPT-2
Trước tiên, hãy xem lại những chức năng mà mô hình ngôn ngữ dựa trên Transformer của Apple có thể triển khai trên iPhone, MacBook và các thiết bị khác.
Chủ yếu được phản ánh trong phương thức nhập liệu. Phương thức nhập liệu của riêng Apple, được hỗ trợ bởi mô hình ngôn ngữ, có thể đạt được chức năng dự đoán từ và sửa lỗi.
Anh Jack Cook đã thử nghiệm nó một cách cụ thể và nhận thấy rằng chức năng này chủ yếu thực hiện dự đoán các từ đơn lẻ.
** **### △Nguồn: bài đăng trên blog của Jack Cook
Mô hình đôi khi dự đoán nhiều từ sắp xuất hiện, nhưng điều này chỉ giới hạn trong các tình huống mà ngữ nghĩa của câu rất rõ ràng, tương tự như chức năng tự động hoàn thành trong Gmail.
** **### △Nguồn: bài đăng trên blog của Jack Cook
Vậy chính xác mô hình này được cài đặt ở đâu? Sau khi tìm hiểu sâu, Anh Cook xác định:
Tôi đã tìm thấy mô hình văn bản dự đoán trong //Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle.
Bởi vì:
Nhiều tệp trong unilm.bundle không tồn tại trong macOS Ventura (13.5) và chỉ xuất hiện trong phiên bản mới của macOS Sonoma beta (14.0).
Có một tệp sp.dat trong unilm.bundle, có thể tìm thấy trong cả Ventura và Sonoma beta, nhưng phiên bản Sonoma beta đã được cập nhật với một bộ mã thông báo rõ ràng trông giống như một mã thông báo.
Số lượng token trong sp.dat có thể khớp với hai tệp trong unilm.bundle - unilm_joint_cpu.espresso.shape và unilm_joint_ane.espresso.shape. Hai tệp này mô tả hình dạng của từng lớp trong mô hình Espresso/CoreML.
Hơn nữa, dựa trên cấu trúc mạng được mô tả trong unilm_joint_cpu, tôi đã suy đoán rằng mô hình Apple dựa trên kiến trúc GPT-2:
Nó chủ yếu bao gồm nhúng mã thông báo, mã hóa vị trí, khối giải mã và lớp đầu ra. Mỗi khối giải mã có các từ như gpt2_transformer_layer_3d.
** **### △Nguồn: bài đăng trên blog của Jack Cook
Dựa trên kích thước của mỗi lớp, tôi cũng suy đoán rằng mô hình Apple có khoảng 34 triệu tham số và kích thước lớp ẩn là 512. Tức là nó nhỏ hơn phiên bản nhỏ nhất của GPT-2.
Tôi tin rằng điều này chủ yếu là do Apple muốn một mẫu máy tiêu thụ ít điện năng hơn nhưng có thể chạy nhanh và thường xuyên.
Tuyên bố chính thức của Apple tại WWDC là "mỗi lần bấm phím, iPhone sẽ chạy mô hình một lần".
Tuy nhiên, điều này cũng có nghĩa là mô hình dự đoán văn bản này không giỏi lắm trong việc tiếp tục câu hoặc đoạn văn một cách trọn vẹn.
** **### △Nguồn: bài đăng trên blog của Jack Cook
Ngoài kiến trúc mô hình, Cook còn tìm hiểu thông tin về tokenizer.
Anh ấy đã tìm thấy một bộ gồm 15.000 mã thông báo trong unilm.bundle/sp.dat. Điều đáng chú ý là nó chứa 100 biểu tượng cảm xúc.
Cook tiết lộ Cook
Dù anh Cook này không phải là đầu bếp nhưng bài đăng trên blog của tôi vẫn thu hút rất nhiều sự chú ý ngay khi được đăng tải.
Dựa trên những phát hiện của anh, cư dân mạng đã nhiệt tình thảo luận về cách tiếp cận của Apple nhằm cân bằng giữa trải nghiệm người dùng và các ứng dụng công nghệ tiên tiến.
Trở lại với bản thân Jack Cook, anh tốt nghiệp MIT với bằng cử nhân và thạc sĩ về khoa học máy tính, đồng thời hiện đang học thạc sĩ về khoa học xã hội Internet tại Đại học Oxford.
Trước đây, anh từng thực tập tại NVIDIA, tập trung nghiên cứu các mô hình ngôn ngữ như BERT. Ông cũng là kỹ sư nghiên cứu và phát triển cấp cao về xử lý ngôn ngữ tự nhiên tại The New York Times.
Vậy có phải sự tiết lộ của anh ấy cũng khơi dậy một số suy nghĩ trong bạn? Chào mừng bạn đến chia sẻ quan điểm của bạn trong khu vực bình luận ~
Liên kết gốc:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tiết lộ Transformer trong iPhone: Dựa trên kiến trúc GPT-2, bộ phân đoạn từ chứa biểu tượng cảm xúc, do cựu sinh viên MIT sản xuất
Nguồn gốc: Qubits
“Bí mật” Transformer của Apple đã được giới đam mê tiết lộ.
Trong làn sóng các mẫu máy lớn, dù bạn có bảo thủ như Apple thì cũng phải nhắc đến “Transformer” trong mỗi buổi họp báo.
Ví dụ, tại WWDC năm nay, Apple đã thông báo rằng các phiên bản iOS và macOS mới sẽ được tích hợp sẵn các mô hình ngôn ngữ Transformer để cung cấp các phương thức nhập liệu với khả năng dự đoán văn bản.
Một anh chàng tên Jack Cook đã lật ngược tình thế của macOS Sonoma beta và phát hiện ra rất nhiều thông tin mới:
Chúng ta hãy xem xét chi tiết hơn.
Dựa trên kiến trúc GPT-2
Trước tiên, hãy xem lại những chức năng mà mô hình ngôn ngữ dựa trên Transformer của Apple có thể triển khai trên iPhone, MacBook và các thiết bị khác.
Chủ yếu được phản ánh trong phương thức nhập liệu. Phương thức nhập liệu của riêng Apple, được hỗ trợ bởi mô hình ngôn ngữ, có thể đạt được chức năng dự đoán từ và sửa lỗi.
**
**### △Nguồn: bài đăng trên blog của Jack Cook
Mô hình đôi khi dự đoán nhiều từ sắp xuất hiện, nhưng điều này chỉ giới hạn trong các tình huống mà ngữ nghĩa của câu rất rõ ràng, tương tự như chức năng tự động hoàn thành trong Gmail.
**
**### △Nguồn: bài đăng trên blog của Jack Cook
Vậy chính xác mô hình này được cài đặt ở đâu? Sau khi tìm hiểu sâu, Anh Cook xác định:
Bởi vì:
Hơn nữa, dựa trên cấu trúc mạng được mô tả trong unilm_joint_cpu, tôi đã suy đoán rằng mô hình Apple dựa trên kiến trúc GPT-2:
Nó chủ yếu bao gồm nhúng mã thông báo, mã hóa vị trí, khối giải mã và lớp đầu ra. Mỗi khối giải mã có các từ như gpt2_transformer_layer_3d.
**
**### △Nguồn: bài đăng trên blog của Jack Cook
Dựa trên kích thước của mỗi lớp, tôi cũng suy đoán rằng mô hình Apple có khoảng 34 triệu tham số và kích thước lớp ẩn là 512. Tức là nó nhỏ hơn phiên bản nhỏ nhất của GPT-2.
Tôi tin rằng điều này chủ yếu là do Apple muốn một mẫu máy tiêu thụ ít điện năng hơn nhưng có thể chạy nhanh và thường xuyên.
Tuyên bố chính thức của Apple tại WWDC là "mỗi lần bấm phím, iPhone sẽ chạy mô hình một lần".
Tuy nhiên, điều này cũng có nghĩa là mô hình dự đoán văn bản này không giỏi lắm trong việc tiếp tục câu hoặc đoạn văn một cách trọn vẹn.
**
**### △Nguồn: bài đăng trên blog của Jack Cook
Ngoài kiến trúc mô hình, Cook còn tìm hiểu thông tin về tokenizer.
Anh ấy đã tìm thấy một bộ gồm 15.000 mã thông báo trong unilm.bundle/sp.dat. Điều đáng chú ý là nó chứa 100 biểu tượng cảm xúc.
Cook tiết lộ Cook
Dù anh Cook này không phải là đầu bếp nhưng bài đăng trên blog của tôi vẫn thu hút rất nhiều sự chú ý ngay khi được đăng tải.
Trước đây, anh từng thực tập tại NVIDIA, tập trung nghiên cứu các mô hình ngôn ngữ như BERT. Ông cũng là kỹ sư nghiên cứu và phát triển cấp cao về xử lý ngôn ngữ tự nhiên tại The New York Times.
Vậy có phải sự tiết lộ của anh ấy cũng khơi dậy một số suy nghĩ trong bạn? Chào mừng bạn đến chia sẻ quan điểm của bạn trong khu vực bình luận ~
Liên kết gốc: