Tiến bộ mới của mô hình quy mô lớn trong nước, ánh sáng chiếu vào lĩnh vực thính giác

Theo quan điểm truyền thống, khái niệm machine learning liên quan đến AI và các mô hình lớn chủ yếu tập trung vào lĩnh vực “tầm nhìn”, sau những nỗ lực không ngừng nghỉ, giờ đây nó đã mở rộng sang lĩnh vực thính giác. Đại học Thanh Hoa đã hợp tác với Volcano Speech Team để ra mắt mô hình thính giác nguồn mở định hướng nhận thức SALMONN, tên này bắt nguồn từ từ viết tắt của Speech Audio Language Music Open Neural Network. Liên kết trình diễn:

Theo quan điểm của con người, thị giác và thính giác đều là những hệ thống thông tin độc lập và phối hợp. Nhưng nhìn từ góc độ máy tính, mô hình lớn… có sử dụng AI, bước nhảy vọt từ thị giác đến thính giác không hề đơn giản như cử động miệng hay ngón tay mà ý nghĩa của nó có thể tóm gọn trong câu nói nổi tiếng về mặt trăng của Mỹ. người tiên phong đổ bộ Armstrong: "Đó là một bước nhỏ của con người, nhưng là một bước nhảy vọt khổng lồ của nhân loại."

Khác với đầu vào giọng nói hay trợ lý giọng nói truyền thống, không khó để nhận ra ngay từ cái tên SALMONN có khả năng nhận biết và hiểu được nhiều đầu vào tín hiệu âm thanh khác nhau như giọng nói, giọng nói, âm thanh và âm nhạc, tương đương với việc thêm Đeo tai vào, sau đó phát triển các khả năng phức tạp và đa chiều hơn như lý luận đa ngôn ngữ và đa phương thức trên cơ sở này. Cụ thể, mô hình lớn cơ bản của SALMONN là Vicuna 13B, loài "alpaca" nổi tiếng, cùng với bộ mã hóa âm thanh chung dựa trên Whisper Encoding và một thiết bị tổng hợp chịu trách nhiệm căn chỉnh các phương thức âm thanh và văn bản. Với sự hợp tác của bộ cơ sở này, SALMONN có khả năng tiếp nhận trực tiếp thông tin âm thanh.

Tuy nhiên, các phương pháp xử lý âm thanh truyền thống tương đối cồng kềnh, sau khi nhận được tín hiệu âm thanh, cần gọi công cụ cơ bản thông qua API để chuyển đổi âm thanh thành thông tin văn bản, sau đó nhập thông tin văn bản vào mô hình lớn để xử lý tiếp theo. Ngược lại, SALMONN có thể trực tiếp tiếp thu kiến thức từ thế giới thực, đồng thời có khả năng hiểu và xử lý tốt trong một số tình huống phức tạp. Và vì dữ liệu huấn luyện đều dựa trên hướng dẫn bằng văn bản nên cũng có thể nói rằng nó có khả năng tương tác đa phương thức.

Sơ đồ phân tích mô hình chính thức ra mắt

Đánh giá từ tin tức hiện tại, SALMONN có khả năng thực hiện nhiều nhiệm vụ liên quan đến giọng nói, đồng thời có nhiều khả năng đa ngôn ngữ và đa phương thức chưa được học đặc biệt trong quá trình đào tạo, chẳng hạn như nhận dạng giọng nói bằng các ngôn ngữ khác nhau, Dịch từ tiếng Anh sang các ngôn ngữ khác, tóm tắt và trích xuất từ khóa nội dung lời nói, tạo câu chuyện từ âm thanh, trả lời câu hỏi bằng âm thanh, lý luận chung về lời nói và âm thanh, v.v.

Theo nhóm chính thức, các nhiệm vụ mà SALMONN có thể xử lý có thể được chia thành ba loại theo mức độ từ dễ đến khó: 1. Các nhiệm vụ đã được học trong quá trình đào tạo, 2. Các nhiệm vụ chưa được học trong quá trình đào tạo, nhưng SALMONN có thể hoàn thành dựa trên việc nhập văn bản 3. Các nhiệm vụ chưa được học trong đào tạo và yêu cầu một mô hình lớn đa phương thức nhận biết trực tiếp âm thanh hoặc video để hoàn thành.

Nếu chỉ đọc báo và demo thì dễ lầm tưởng SALMONN “chỉ thế thôi”, nhưng như đã đề cập trước đó, thị giác máy và thính giác máy thuộc hai lĩnh vực. Trong số các khái niệm như AGI (Trí tuệ nhân tạo tổng hợp) và học máy thường được đề cập, Nghiên cứu về thính giác vẫn còn ở dạng “trợ lý giọng nói” hoặc tương tự, như Siri, đã xuất hiện trên iPhone cách đây chục năm. Mặc dù khái niệm này rất tiên tiến nhưng trong một thời gian dài sự phát triển của thính giác máy lại không nhanh và hiệu quả như thị giác máy, mặc dù các khái niệm như AGI và các mô hình lớn đang rất hot nhưng thính giác của máy dường như vẫn còn khiêm tốn.

**Lý do dẫn đến tình trạng khó xử như vậy chủ yếu là do sự khác biệt bẩm sinh giữa thính giác của máy và thị giác của máy và một loạt khó khăn do nó gây ra. **Trước đây, người ta đã giới thiệu rằng Siri của Apple đã là một trợ lý giọng nói chất lượng tốt, nhưng nó vẫn thường bị chế giễu là "chậm phát triển trí tuệ nhân tạo". Sau đó, có thông tin cho rằng Apple cũng có nhiều bất mãn với Siri, nó hiếm khi được nhắc đến trong các hội nghị trước, dù có nhắc đến thì cũng có thể chỉ là "thông minh hơn" và "mạnh mẽ hơn" mà thôi. Trước khi Mark Gurman tung tin Apple cũng cho biết khi bí mật phát triển Apple GPT, bộ phận Siri đã mắc kẹt trong một vũng lầy vô ơn trong một thời gian dài. Apple đã cố gắng tạo ra một bản cập nhật mang tính cách mạng cho Siri trong nhiều năm và thậm chí còn lên kế hoạch một dây chuyền sản xuất riêng cho mục đích này, để tạo ra một sản phẩm mới, có thể là một cách hay để tích hợp Apple GPT và Siri lại với nhau, một mẫu lớn có thể nhận dạng giọng nói và có thể điều khiển bằng giọng nói thực sự rất tuyệt.

SALMONN do Đại học Thanh Hoa và Volcano Voice phối hợp ra mắt có thể đang trên con đường như vậy và nó thực sự đã thể hiện một lối chơi mới. Có lẽ nhiều sản phẩm mới tương tự sẽ sớm ra mắt.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)