Giáo sư Khoa học Máy tính Stanford Fei-Fei Li cho biết sự tiến bộ của AI hiện nay bị giới hạn bởi các hệ thống không thể hiểu không gian vật lý.
Các mô hình thế giới được thiết kế để mô phỏng môi trường và dự đoán cách mà các cảnh thay đổi theo thời gian.
Các nguyên mẫu sớm như Marble gợi ý về cách mà những mô hình này có thể định hình lại công việc sáng tạo, robot và khoa học.
Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.
Khám phá SCENE
Robot và trí tuệ nhân tạo đa phương thức vẫn không thể nắm bắt thế giới vật lý, một khiếm khuyết mà một nhà nghiên cứu nổi bật cho rằng hiện nay là trở ngại lớn nhất của lĩnh vực này.
Fei-Fei Li, nhà khoa học máy tính tại Stanford, được coi là một trong những người tiên phong trong lĩnh vực thị giác máy tính hiện đại, cho biết khoảng cách giữa AI và thực tế vật lý đã trở thành vấn đề cấp bách nhất của công nghệ và lập luận rằng việc thu hẹp khoảng cách này sẽ đòi hỏi các hệ thống được xây dựng xung quanh lý luận không gian chứ không chỉ dựa vào ngôn ngữ.
AI đang nhanh chóng tiến gần đến giới hạn của việc học dựa trên văn bản, và sự tiến bộ cuối cùng sẽ phụ thuộc vào “các mô hình thế giới,” Li nói trong một báo cáo được công bố vào thứ Hai.
“Tại cốt lõi của việc mở khóa trí thông minh không gian là sự phát triển của các mô hình thế giới—một loại AI sinh ra mới phải đối mặt với một bộ thử thách hoàn toàn khác so với LLMs,” Li viết trên X. “Các mô hình này phải tạo ra những thế giới nhất quán về không gian tuân theo các quy luật vật lý, xử lý các đầu vào đa phương thức từ hình ảnh đến hành động, và dự đoán cách những thế giới đó tiến triển hoặc được tương tác theo thời gian.”
Những mô hình này là gì trong thế giới?
Khái niệm “mô hình thế giới” có từ những năm 1940, khi nhà triết học và tâm lý học người Scotland Kenneth Craik tiến hành nghiên cứu khoa học nhận thức.
Ý tưởng này đã xuất hiện trở lại trong AI hiện đại sau khi bài báo năm 2018 của David Ha và Jürgen Schmidhuber cho thấy một mạng nơ-ron có thể học được một mô hình nội bộ compact của một môi trường và sử dụng nó như một bộ mô phỏng cho việc lập kế hoạch và kiểm soát.
Li lập luận rằng các mô hình thế giới quan trọng vì robot và các hệ thống đa phương thức vẫn gặp khó khăn với lý luận không gian có căn cứ, khiến chúng không thể đánh giá khoảng cách và sự thay đổi cảnh vật, hoặc dự đoán các kết quả vật lý cơ bản.
“Robot như những cộng sự của con người, cho dù hỗ trợ các nhà khoa học tại bàn thí nghiệm hay hỗ trợ người cao tuổi sống một mình, có thể mở rộng một phần lực lượng lao động đang rất cần thêm lao động và năng suất,” Li viết. Các môi trường thực tế tuân theo những quy tắc mà các máy móc hiện tại không thể nắm bắt, Li lập luận.
Từ trọng lực định hình chuyển động đến vật liệu ảnh hưởng đến ánh sáng, việc giải quyết điều này đòi hỏi các hệ thống có khả năng lưu trữ trí nhớ không gian và mô hình hóa cảnh trong hơn hai chiều.
Vào tháng Chín, công ty của Li, World Labs, đã phát hành phiên bản beta cho Marble, một mô hình thế giới ban đầu tạo ra các môi trường ba chiều có thể khám phá từ các gợi ý văn bản hoặc hình ảnh.
Công ty tuyên bố rằng người dùng có thể đi qua những thế giới này mà không bị giới hạn thời gian hay sự thay đổi cảnh, và môi trường vẫn giữ nguyên chứ không biến dạng hay bị vỡ ra.
“Marble chỉ là bước đầu tiên của chúng tôi trong việc tạo ra một mô hình thế giới thông minh không gian thực sự,” Li viết. “Khi tiến trình tăng tốc, các nhà nghiên cứu, kỹ sư, người dùng và các nhà lãnh đạo doanh nghiệp bắt đầu nhận ra tiềm năng phi thường của nó. Thế hệ tiếp theo của các mô hình thế giới sẽ cho phép máy móc đạt được trí thông minh không gian ở một cấp độ hoàn toàn mới - một thành tựu sẽ mở khóa các khả năng thiết yếu vẫn còn thiếu sót trong các hệ thống AI ngày nay.”
Li cho biết các trường hợp sử dụng mô hình thế giới bao gồm hỗ trợ nhiều ứng dụng khác nhau vì chúng cung cấp cho AI một hiểu biết nội tại về cách mà các môi trường hoạt động.
Các nhà sáng tạo có thể sử dụng chúng để khám phá các cảnh trong thời gian thực, robot có thể dựa vào chúng để điều hướng và xử lý các vật thể một cách an toàn hơn, và các nhà nghiên cứu trong khoa học và y tế có thể thực hiện các mô phỏng không gian hoặc cải thiện hình ảnh và tự động hóa phòng thí nghiệm.
Li đã liên kết nghiên cứu trí thông minh không gian với các nghiên cứu sinh học sớm, lưu ý rằng con người đã học cách nhận thức và hành động từ lâu trước khi họ phát triển ngôn ngữ.
“Rất lâu trước khi có ngôn ngữ viết, con người đã kể những câu chuyện—vẽ chúng trên các bức tường hang động, truyền lại qua các thế hệ, xây dựng toàn bộ nền văn hóa dựa trên những câu chuyện chung,” cô ấy viết. “Những câu chuyện là cách chúng ta hiểu thế giới, kết nối qua khoảng cách và thời gian, khám phá ý nghĩa của việc làm người, và quan trọng nhất, tìm thấy ý nghĩa trong cuộc sống và tình yêu trong chính chúng ta.”
Li cho biết AI cần có nền tảng giống như để hoạt động trong thế giới vật lý và lập luận rằng vai trò của nó nên là hỗ trợ con người, chứ không phải thay thế họ. Tuy nhiên, sự tiến bộ sẽ phụ thuộc vào các mô hình hiểu cách thế giới hoạt động chứ không chỉ đơn thuần là mô tả nó.
“Biên giới tiếp theo của AI là Trí thông minh không gian, một công nghệ sẽ biến việc nhìn thành lý luận, cảm nhận thành hành động, và trí tưởng tượng thành sáng tạo,” Li nói.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tiến bộ của AI hiện phụ thuộc vào ‘Mô hình thế giới’ nắm bắt thực tế vật lý
Tóm tắt
Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.
Khám phá SCENE
Robot và trí tuệ nhân tạo đa phương thức vẫn không thể nắm bắt thế giới vật lý, một khiếm khuyết mà một nhà nghiên cứu nổi bật cho rằng hiện nay là trở ngại lớn nhất của lĩnh vực này.
Fei-Fei Li, nhà khoa học máy tính tại Stanford, được coi là một trong những người tiên phong trong lĩnh vực thị giác máy tính hiện đại, cho biết khoảng cách giữa AI và thực tế vật lý đã trở thành vấn đề cấp bách nhất của công nghệ và lập luận rằng việc thu hẹp khoảng cách này sẽ đòi hỏi các hệ thống được xây dựng xung quanh lý luận không gian chứ không chỉ dựa vào ngôn ngữ.
AI đang nhanh chóng tiến gần đến giới hạn của việc học dựa trên văn bản, và sự tiến bộ cuối cùng sẽ phụ thuộc vào “các mô hình thế giới,” Li nói trong một báo cáo được công bố vào thứ Hai.
“Tại cốt lõi của việc mở khóa trí thông minh không gian là sự phát triển của các mô hình thế giới—một loại AI sinh ra mới phải đối mặt với một bộ thử thách hoàn toàn khác so với LLMs,” Li viết trên X. “Các mô hình này phải tạo ra những thế giới nhất quán về không gian tuân theo các quy luật vật lý, xử lý các đầu vào đa phương thức từ hình ảnh đến hành động, và dự đoán cách những thế giới đó tiến triển hoặc được tương tác theo thời gian.”
Những mô hình này là gì trong thế giới?
Khái niệm “mô hình thế giới” có từ những năm 1940, khi nhà triết học và tâm lý học người Scotland Kenneth Craik tiến hành nghiên cứu khoa học nhận thức.
Ý tưởng này đã xuất hiện trở lại trong AI hiện đại sau khi bài báo năm 2018 của David Ha và Jürgen Schmidhuber cho thấy một mạng nơ-ron có thể học được một mô hình nội bộ compact của một môi trường và sử dụng nó như một bộ mô phỏng cho việc lập kế hoạch và kiểm soát.
Li lập luận rằng các mô hình thế giới quan trọng vì robot và các hệ thống đa phương thức vẫn gặp khó khăn với lý luận không gian có căn cứ, khiến chúng không thể đánh giá khoảng cách và sự thay đổi cảnh vật, hoặc dự đoán các kết quả vật lý cơ bản.
“Robot như những cộng sự của con người, cho dù hỗ trợ các nhà khoa học tại bàn thí nghiệm hay hỗ trợ người cao tuổi sống một mình, có thể mở rộng một phần lực lượng lao động đang rất cần thêm lao động và năng suất,” Li viết. Các môi trường thực tế tuân theo những quy tắc mà các máy móc hiện tại không thể nắm bắt, Li lập luận.
Từ trọng lực định hình chuyển động đến vật liệu ảnh hưởng đến ánh sáng, việc giải quyết điều này đòi hỏi các hệ thống có khả năng lưu trữ trí nhớ không gian và mô hình hóa cảnh trong hơn hai chiều.
Vào tháng Chín, công ty của Li, World Labs, đã phát hành phiên bản beta cho Marble, một mô hình thế giới ban đầu tạo ra các môi trường ba chiều có thể khám phá từ các gợi ý văn bản hoặc hình ảnh.
Công ty tuyên bố rằng người dùng có thể đi qua những thế giới này mà không bị giới hạn thời gian hay sự thay đổi cảnh, và môi trường vẫn giữ nguyên chứ không biến dạng hay bị vỡ ra.
“Marble chỉ là bước đầu tiên của chúng tôi trong việc tạo ra một mô hình thế giới thông minh không gian thực sự,” Li viết. “Khi tiến trình tăng tốc, các nhà nghiên cứu, kỹ sư, người dùng và các nhà lãnh đạo doanh nghiệp bắt đầu nhận ra tiềm năng phi thường của nó. Thế hệ tiếp theo của các mô hình thế giới sẽ cho phép máy móc đạt được trí thông minh không gian ở một cấp độ hoàn toàn mới - một thành tựu sẽ mở khóa các khả năng thiết yếu vẫn còn thiếu sót trong các hệ thống AI ngày nay.”
Li cho biết các trường hợp sử dụng mô hình thế giới bao gồm hỗ trợ nhiều ứng dụng khác nhau vì chúng cung cấp cho AI một hiểu biết nội tại về cách mà các môi trường hoạt động.
Các nhà sáng tạo có thể sử dụng chúng để khám phá các cảnh trong thời gian thực, robot có thể dựa vào chúng để điều hướng và xử lý các vật thể một cách an toàn hơn, và các nhà nghiên cứu trong khoa học và y tế có thể thực hiện các mô phỏng không gian hoặc cải thiện hình ảnh và tự động hóa phòng thí nghiệm.
Li đã liên kết nghiên cứu trí thông minh không gian với các nghiên cứu sinh học sớm, lưu ý rằng con người đã học cách nhận thức và hành động từ lâu trước khi họ phát triển ngôn ngữ.
“Rất lâu trước khi có ngôn ngữ viết, con người đã kể những câu chuyện—vẽ chúng trên các bức tường hang động, truyền lại qua các thế hệ, xây dựng toàn bộ nền văn hóa dựa trên những câu chuyện chung,” cô ấy viết. “Những câu chuyện là cách chúng ta hiểu thế giới, kết nối qua khoảng cách và thời gian, khám phá ý nghĩa của việc làm người, và quan trọng nhất, tìm thấy ý nghĩa trong cuộc sống và tình yêu trong chính chúng ta.”
Li cho biết AI cần có nền tảng giống như để hoạt động trong thế giới vật lý và lập luận rằng vai trò của nó nên là hỗ trợ con người, chứ không phải thay thế họ. Tuy nhiên, sự tiến bộ sẽ phụ thuộc vào các mô hình hiểu cách thế giới hoạt động chứ không chỉ đơn thuần là mô tả nó.
“Biên giới tiếp theo của AI là Trí thông minh không gian, một công nghệ sẽ biến việc nhìn thành lý luận, cảm nhận thành hành động, và trí tưởng tượng thành sáng tạo,” Li nói.