AI Agent đang tiếp quản mô hình ngôn ngữ lớn LLM và trở thành chủ đề nóng nhất trong giới AI.
Hiện tại, tình hình trong vòng tròn đầu tư mạo hiểm AI đại khái như sau:
Big Factory Club: Nhân viên nội bộ của OpenAI cho rằng AI Agent là hướng đi mới của OpenAI; Microsoft đang cố gắng thúc đẩy phi công phụ và để AI đóng vai trò trợ lý, đây là một kịch bản AI điển hình; NVIDIA đã ra mắt Voyager, AI Agent này có thể tự chủ Viết mã để thống trị trò chơi "Minecraft"; SenseTime trong nước cũng ra mắt đại lý AI tổng quát; Alibaba ra mắt nhân viên kỹ thuật số...
Vòng tròn học thuật: Vào tháng 4 năm nay, Stanford đã thành lập một thị trấn Westworld, cho phép 25 Đặc vụ AI mô phỏng con người trong môi trường hộp cát của thị trấn ảo và yêu, tiệc tùng, cộng tác, hẹn hò, v.v. với các Đặc vụ AI khác. Ngoài ra, một số học giả đã bắt đầu sử dụng Tác nhân AI để thiết kế các thí nghiệm khoa học phức tạp, bao gồm tự động đọc báo trực tuyến và nghiên cứu thuốc chống ung thư... Những khám phá tiên tiến này thật đáng kinh ngạc.
Vòng tròn doanh nhân: AI Agent không chỉ là trò chơi dành cho các nhà khoa học hàng đầu. Nhiều dự án như Camel, AutoGPT, BabyAGI và AgentGPT đã xuất hiện. Ngoài ra còn có một số lượng lớn các nhà phát triển và doanh nhân cộng đồng nguồn mở sử dụng các dự án nguồn mở này để tạo ra một số dụng cụ thực hành.. Ví dụ: aomni là một ứng dụng AI Agent giúp người dùng nắm bắt thông tin mạng và gửi qua email.
Vòng tròn đầu tư: AI Agent được coi là “sự khởi đầu của kỷ nguyên trí tuệ nhân tạo nói chung (AGI)”, và sự bùng nổ của nó là “thắt chặt”. Một số doanh nhân ở Thung lũng Silicon cho biết khi nói chuyện với các nhà đầu tư về Generative Agents, mọi người đều mong chờ với nó và hy vọng rằng Hiểu nhiều hơn, đến gần hơn và phản ứng nhanh hơn với những cơn bộc phát tiếp theo.
Từ những nhận định này, vẫn còn quá sớm để nói rằng “AI Agent đã mở ra nửa sau của các mô hình lớn”, nhưng cần phải nói rõ rằng “AI Agent là tiêu chuẩn thương mại cho các mô hình lớn”.
Do đó, tiếp theo chúng ta sẽ thấy nhiều nhà sản xuất và công ty khởi nghiệp lớn thực hiện nhiều hành động hơn đối với Tác nhân AI.
Vậy chính xác AI Agent là gì? Tại sao lại nói nó là điều kiện cần cho việc thương mại hóa các mô hình lớn?
Mô hình lớn kiêu ngạo, ngạo mạn nhưng người dùng vẫn không trả tiền.
Ở đây chúng ta đặt Tác nhân AI sang một bên và xem mô hình lớn trông như thế nào.
Tôi tin rằng hầu hết độc giả đều đồng ý rằng các mô hình lớn là thứ có tầm nhìn cao, đầu tư cao và ngưỡng cao. Từ góc độ tình cảm, có thể hiện thực hóa trí tuệ nhân tạo nói chung và thay đổi hoàn toàn xã hội; từ góc độ thế tục, nó có thể tái cấu trúc doanh nghiệp/ sản phẩm và cho phép các công ty công nghệ tăng hiệu suất.
Nhưng tất cả đều dựa trên thực tế là các mô hình lớn có thể được thương mại hóa thực sự, thu hồi chi phí R&D và đạt được sự phát triển lành mạnh và bền vững.
Trong vài tháng qua, hai mô hình kinh doanh cho các mô hình lớn đã trở nên hiệu quả hơn: một là việc chính phủ và doanh nghiệp trong các ngành khác nhau triển khai các mô hình lớn tại địa phương được tư nhân hóa; hai là sức mạnh tính toán cần thiết để bán các mô hình lớn thông qua đám mây, máy chủ AI , v.v.
Hiện các nhà sản xuất trong nước đã công bố các báo cáo kinh doanh tương ứng và thu về hàng chục triệu doanh thu từ nhu cầu triển khai tư nhân hóa trong ngành.
Tuy nhiên, chỉ riêng hoạt động kinh doanh ToB không thể hỗ trợ một mô hình kinh doanh quy mô lớn.
Trong cuộc cách mạng công nghệ, công nghệ cốt lõi phải được hàng tỷ người dùng thông thường sử dụng để tạo ra giá trị kinh tế. Sau khi PC gia đình, Internet và điện thoại thông minh trở nên phổ biến trong đại chúng, giá trị thị trường của nhiều công ty công nghệ tăng vọt.
Ngày nay, các gã khổng lồ đã đầu tư rất nhiều nguồn lực vào việc đào tạo các mô hình lớn, đặc biệt là các mô hình cơ bản, thường có thang đo tham số hàng trăm tỷ hoặc hàng nghìn tỷ và phải được người dùng đại chúng sử dụng.
Vậy trải nghiệm ứng dụng thực tế là gì?
Các tình huống như trò chuyện, vẽ tranh, sáng tạo có tỷ lệ mắc lỗi cao, ngay cả khi AI trả lời sai câu hỏi, người dùng vẫn sẽ thấy "dễ thương". Phần này của ứng dụng vốn đã rất phức tạp, chẳng hạn như " Ảnh ID AI". Trong hầu hết các tình huống, AI cần thiết để tự động giúp bạn xử lý các nhiệm vụ nghiêm trọng hơn, hợp tác với các điều kiện môi trường khác và giải quyết công việc kinh doanh lâu dài và liên tục. Đừng mắc quá nhiều sai lầm, nếu không mọi người sẽ phải tham gia với số lượng lớn, và Không thể thực sự tăng năng suất.
Rõ ràng, loại kịch bản này không thể được giải quyết tốt bằng một mô hình đa năng lớn và phức tạp hiện nay.
Lấy một nhà văn như tôi làm ví dụ, nếu tôi để một người mẫu lớn viết bản thảo cho mình thì có thể sẽ bị ảo giác, tôi phải kiểm tra lại các sự kiện/tin tức/báo cáo được đề cập, việc này còn rắc rối hơn việc tự mình tìm kiếm thông tin và chưa đủ chính xác. Để nảy ra ý tưởng, tôi phải dùng những từ gợi ý để truyền cảm hứng trong một thời gian dài và có thể không có cái nào có thể sử dụng được. Nó chậm và mệt mỏi, vì vậy tôi cũng có thể viết nó riêng tôi.
Việc không thể tự động hoàn thành nhiệm vụ trong một bước đòi hỏi phải có một lượng lớn con người can thiệp vào quá trình xem xét, đây hiện là khó khăn lớn trong việc áp dụng các mô hình lớn trong các tình huống nghiêm trọng và nó cũng ảnh hưởng trực tiếp đến tiến độ triển khai và thương mại hóa mô hình lớn .
Làm thế nào để làm nó? Nếu các mô hình lớn muốn hoạt động tốt thì rất cần một nhóm người trợ giúp và đó chính là AI Agent.
Giải phóng năng suất thực sự, tại sao AI Agent lại tuyệt vời đến vậy?
Hãy tưởng tượng, nếu một mô hình lớn có thể tự hoạt động 24 giờ một ngày, 7 ngày một ngày mà không cần sự can thiệp của con người, nó có thể tự mình hoàn thành nhiều công việc khác nhau, mọi người chỉ cần thỉnh thoảng quay lại máy tính hoặc văn phòng để xem nó hoạt động như thế nào ... Đây là cách chính xác để mở một mô hình lớn.
Tại hội nghị GPT-4, OpenAI đã chứng minh khả năng tự động hóa một số tác vụ, chẳng hạn như cho phép GPT4 nhận dạng các bản phác thảo để tạo trang web và sửa lỗi trong mã của chính nó từng bước.
Nhưng làm thế nào khả năng này có thể được các nhà phát triển và người dùng bình thường sử dụng? Nhiều nhà phát triển đã phản hồi rằng nếu viết code trực tiếp bằng GPT4 thì vẫn phải tự debug, không thể nhìn hình để tạo code để sử dụng trực tiếp, có khi không dùng thì tốt hơn.
Các nhà sản xuất mô hình lớn cũng đang trong tình thế tiến thoái lưỡng nan, tôi đã mở API, để đạt được các khả năng chuyên nghiệp, chính xác và tinh tế hơn thì cần có người phát triển thêm nên tôi đã giao dùi cui cho Đặc vụ AI.
AI Agent là một thực thể tự động của AI trong môi trường, có 4 đặc điểm cốt lõi:
Cảm nhận môi trường xung quanh thông qua các cảm biến. Môi trường này có thể là ảo, chẳng hạn như trò chơi hộp cát, hệ thống đào tạo mô phỏng, mô phỏng lái xe tự động, v.v. hoặc có thể là vật lý, chẳng hạn như đường, phòng, dây chuyền lắp ráp, v.v.
Có khả năng đưa ra quyết định một cách độc lập.
Người thực hiện/người thực hiện làm việc cùng nhau để thực hiện hành động.
Học hỏi và tiến bộ dựa trên việc tối đa hóa hiệu suất và tối ưu hóa kết quả.
Ở góc độ này, bản thân con người thực chất là một loại Tác nhân AI “thông minh”, chúng ta có thể cảm nhận được những thay đổi của môi trường bên ngoài thông qua mắt, tai, da, v.v., sau đó đưa ra quyết định thông qua não, nói bằng miệng, và đi bằng chân. Hãy hành động và liên tục điều chỉnh theo môi trường bên ngoài dựa trên phản hồi khen thưởng.
Trên thực tế, Agent trong AI cũng có logic tương tự. Lấy Tác nhân AI trong kịch bản lái xe tự động làm ví dụ. Các cảm biến cần thiết để thu thập thông tin và cảm nhận các yếu tố môi trường như phương tiện giao thông đường bộ và người đi bộ. Sau đó, hệ thống sẽ tự động đưa ra quyết định và điều khiển chân ga, phanh và các thiết bị khác để phản ứng phù hợp .
Đây còn được gọi là mô hình PEAS của AI Agent. Hãy lập một bảng đơn giản để bạn cảm nhận:
Vậy, cụ thể trên các mô hình lớn, AI Agent có thể mang lại tác động gì? Nó chủ yếu có các chức năng chính sau:
Đầu tiên, dỡ bỏ nhiệm vụ.
Các mô hình lớn cần được kết hợp với một trường cụ thể và nhu cầu của người dùng mà họ gặp phải là tương đối chung và quy trình này thường bao gồm nhiều bước. Đúng như người dùng nói “cần phải có ánh sáng”, một mô hình lớn bị cô lập không biết trong môi trường có những loại đèn nào, cũng như không biết cách điều khiển chúng, do đó, ngay cả với một mô hình lớn cũng không thể xử lý được việc tưởng chừng như đơn giản này. nhưng thực sự là nhiệm vụ phức tạp.
Tác nhân AI có khả năng lập kế hoạch nhiệm vụ và có thể tự động hiểu và quyết định cách lập kế hoạch cho các bước, phân bổ nguồn lực, tối ưu hóa các quyết định và sau đó hoàn thành các hướng dẫn, nâng cao hiệu quả và độ chính xác của các nhiệm vụ xử lý mô hình lớn.
Trong một bài báo của nhóm nghiên cứu Google Brain, mô hình ngôn ngữ lớn được yêu cầu nói ra quy trình suy luận phân rã các bước nhiệm vụ, tức là “độc thoại nội tâm”, sau đó thực hiện các hành động tương ứng, điều này đột ngột cải thiện độ chính xác của kết quả. Nó đã đạt được kết quả SOTA trên nhiều tập dữ liệu, cải thiện tính vô nghĩa của các mô hình lớn.
Thứ hai, thực hiện tự động.
AI Agent được thiết kế để suy nghĩ và hành động độc lập, người dùng chỉ cần giao nhiệm vụ cho nó và để nó thực hiện công việc của mình. Một ví dụ điển hình của AutoGPT là đặt pizza, người dùng không cần nhập địa chỉ hay chọn hương vị, AI Agent sẽ đảm nhiệm tất cả các bước đặt hàng và thực hiện tự động, mọi người có thể quan sát từ bên cạnh và sửa lỗi trong thời gian nếu có sai phạm.
AI Agent không chỉ có thể sử dụng Internet mà còn có thể làm việc trong môi trường vật lý, điều khiển robot để chuyển phát nhanh, ô tô không người lái, lái xe tự động, v.v.
Với AI Agent, sự tương tác giữa người dùng và các mô hình lớn sẽ tự nhiên, đơn giản và nhanh chóng hơn, giảm bớt sự tham gia thủ công và thực sự nâng cao chất lượng, hiệu quả. Ví dụ: trong thế giới trò chơi, Tác nhân AI có thể tự động bắt đầu cuộc đối thoại với người chơi, cung cấp sự tương tác mở và thiết kế các mạch truyện vô tận dựa trên phản hồi của người chơi, thực sự khiến trò chơi trở nên dễ tiếp cận hơn với hàng nghìn người; trong thế giới thực, Tác nhân AI có thể tự động tạo ra các hướng dẫn và Vận hành, điều khiển thân máy, cung cấp dịch vụ dọn phòng cho con người và tự động hóa các hoạt động trong nhà máy mà không cần dựa vào sự hướng dẫn của con người.
Thứ ba, tiết kiệm tài nguyên.
Giống như con người, Tác nhân AI có thể sử dụng các công cụ, tức là gọi API, để xử lý các tác vụ phức tạp hơn, giúp mở rộng đáng kể khả năng của các mô hình lớn và giảm lãng phí cũng như tiêu thụ quá nhiều tài nguyên.
Ví dụ: khi viết mã cho AutoGPT, bạn cần truy cập dữ liệu nguồn thông tin độc quyền, tài nguyên máy tính, v.v. Trong quá trình này, Tác nhân AI có thể tự động tìm API thích hợp để gọi, do đó tránh lãng phí các mã thông báo API khác. Bạn cũng có thể tự học, tối ưu hóa kết quả và gọi lại API nếu không hài lòng.
Nói chung, để thực sự hoàn thành một hướng dẫn chưa rõ ràng cho người dùng, chẳng hạn như lập kế hoạch du lịch, mô hình cần gọi nhiều API để giải quyết vấn đề. hấp dẫn và cạnh tranh hơn.
Thứ tư, thu hút các nhà phát triển.
Để thương mại hóa các mô hình lớn, mô hình API yêu cầu sự tham gia của càng nhiều nhóm nhà phát triển càng tốt và mô hình công nghiệp cũng yêu cầu các nhà tích hợp ISV, nhà cung cấp dịch vụ phần mềm, v.v. Mọi người đều biết rằng rất khó để giành chiến thắng với mô hình cơ bản của một nhà sản xuất lớn và chúng tôi hy vọng sẽ tìm được cơ hội trong các ứng dụng cấp trên được chia nhỏ. AI Agent có thể giải quyết các vấn đề cụ thể, cải thiện hiệu ứng mô hình và điều khiển các hệ thống kỹ thuật số và thực thể vật lý nên rất phù hợp để xây dựng các siêu ứng dụng.
Nếu AI Agent giống như đơn vị nhỏ nhất của cuộc sống AI thì các nhà sản xuất mô hình lớn là những nhà máy sản sinh ra sự sống, còn các nhà phát triển, nhà cung cấp phần mềm… giống như những lớp đào tạo kỹ năng, dạy cho họ một số kỹ năng thực tế và khác biệt dành cho ngành. với người dùng.
Do đó, mô hình lớn nào có thể xây dựng AI Agent tốt hơn sẽ thu hút hệ sinh thái phát triển lớn hơn và gắn bó hơn với người dùng B-end thương mại, tạo thành cơ hội lớn ở cấp độ nền tảng AI.
Tóm lại, AI Agent ảnh hưởng trực tiếp đến hiệu quả mô hình, chất lượng dịch vụ, chi phí triển khai và khả năng sinh thái của các mô hình lớn và sẽ là chìa khóa cho sự cạnh tranh của nhiều mô hình lớn trong tương lai.
Nếu AI Agent làm tốt thì không thể thiếu mô hình.
Sau đó, bạn có thể hỏi, làm thế nào chúng ta có thể tạo ra một Tác nhân AI tốt? Điều này đặt ra những thách thức gì cho các mô hình lớn?
Chúng tôi tin rằng để AI Agent được triển khai, các mô hình lớn cần thực hiện các nhiệm vụ sau, đây cũng sẽ là trọng tâm cạnh tranh trong tương lai:
Mô hình cơ bản.
Khả năng và tác dụng của Tác nhân AI được xác định bởi khả năng của mô hình cơ bản cơ bản. Tác nhân AI có thể không sử dụng được các khả năng của mô hình cơ bản, nhưng Tác nhân AI có thể không có các khả năng mà mô hình cơ bản không có.
Lấy nhiệm vụ ngôn ngữ làm ví dụ, GPT-4 cung cấp khả năng hiểu ngôn ngữ tự nhiên mạnh mẽ, nhưng hiện tại rất ít trong số chúng thực sự được triển khai trong các tác nhân và sản phẩm AI. Một số NPC trong trò chơi vẫn chưa có khả năng đưa ra quyết định tự chủ.
Một ví dụ khác, mặc dù GPT-4 là đa phương thức nhưng nó chỉ mở API ngôn ngữ, do đó, các nhà phát triển muốn sử dụng khả năng đa phương thức của GPT4 để xây dựng Tác nhân AI vẫn chưa thể thực hiện được, còn các phương thức khác như hình ảnh và âm thanh thì không thể thực hiện được. Còn thiếu Dựa trên trạng thái thông tin, sự hiểu biết và tác động của Tác nhân AI đối với môi trường vẫn cần được cải thiện.
Do đó, dù là mô hình nguồn mở hay mô hình nguồn đóng, nếu bạn muốn thương mại hóa nó thông qua nền kinh tế API thì khả năng của mô hình cơ bản sẽ liên quan trực tiếp đến chất lượng của Tác nhân AI và vẫn có phòng để cải thiện.
2. Kiến thức dữ liệu.
Để trở thành một AI Agent giỏi, việc thu thập và sử dụng dữ liệu là điều kiện tiên quyết cơ bản. Đối với các nhà phát triển, lượng dữ liệu cần thiết cho các tác vụ số không còn là vấn đề nữa, nhưng khi phát triển các tác nhân AI trong thế giới vật lý, chi phí dữ liệu rất cao. Dữ liệu điều khiển robot thường chỉ có thể được thu thập bởi chính bạn thông qua trình mô phỏng hoặc bộ sưu tập robot vật lý tại chỗ. Nhưng xét cho cùng, trình mô phỏng không phải là môi trường thực và hiệu quả huấn luyện có thể không tốt, tuy nhiên, việc mua hàng trăm robot và máy bay không người lái để thực sự đi trên đường và vào các nhà máy để thu thập dữ liệu đòi hỏi phải đầu tư rất nhiều về mặt mua sắm. chi phí, hạn chế về chính sách, thực tế triển khai… Khó khăn.
Tại thời điểm này, các nhà sản xuất mô hình lớn với lợi thế về dữ liệu, chẳng hạn như lợi thế lái xe tự động của Google và Baidu cũng như lợi thế về dữ liệu của Microsoft, Google, Sogou, Baidu và các doanh nghiệp tìm kiếm khác, có thể giảm bớt một số rào cản cho các nhà phát triển khám phá Đại lý AI và cũng sẽ Xây dựng rào cản đối với các mô hình lớn từ các nhà cung cấp này.
Hỗ trợ sản phẩm.
Phải thừa nhận rằng các cơ hội ứng dụng mô hình lớn do AI Agent đại diện vẫn còn ở giai đoạn rất sớm, công nghệ vẫn chưa hoàn thiện và việc thăm dò thương mại mới chỉ thực hiện một bước nhỏ. Đối với các nhà phát triển, nhà cung cấp dịch vụ phần mềm, v.v., điều quan trọng hơn và cần xem xét sớm hơn cách triển khai Tác nhân AI trong mã là tưởng tượng xem Tác nhân AI sẽ đi đâu:
Nó nên trông giống cái gì? Tên bạn là gì? Có giới tính không? Bạn sử dụng loại tính cách nào để nói chuyện với người dùng? Các trường hợp sử dụng là gì? Bạn sẽ gặp phải những khó khăn cụ thể nào? Làm thế nào để đánh giá sự thành công của một Agent AI?
Đây là những "vùng đất không có con người" ở cấp độ sản phẩm và cấp độ thương mại. Để cho phép các nhà phát triển thỏa sức tưởng tượng và cố gắng tạo ra Tác nhân AI trong nhiều môi trường và nhiệm vụ khác nhau, các nhà sản xuất mô hình lớn cần phải mở ra hệ sinh thái kinh doanh của riêng mình và cung cấp các dịch vụ phong phú và đa dạng hơn. các giải pháp thuận tiện hơn, có chức năng giảm rủi ro thử và sai cho các nhà phát triển, tăng cường độ kết nối với người dùng doanh nghiệp và tạo ra nhiều tùy chọn kinh doanh hơn cũng như các trường hợp triển khai.
Nhìn chung, lĩnh vực này vẫn còn rất mới và AI Agent vẫn chưa có tác động rõ rệt đến ngành công nghiệp mô hình lớn, nhưng chắc chắn rằng AI Agent sẽ loại bỏ một lượng lớn các tương tác rườm rà giữa con người và hệ thống AI, và điều đó đang diễn ra. .
Ngày càng có nhiều Đại lý AI được đưa tới các cộng đồng và người dùng. Họ học hỏi, thay đổi và phát triển. Có lẽ trong vài tháng nữa, chúng ta sẽ chứng kiến sự trưởng thành và bùng nổ của Tác nhân AI, điều này chắc chắn sẽ gây ra một cuộc cải tổ khác trong lĩnh vực mô hình lớn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Mô hình lớn kiêu ngạo và kiêu ngạo, không có Đại lý AI, việc sống hay chết khó có thể đoán trước được.
Bản gốc: Cáo Tây Tạng
**Nguồn: **Cơ thể vùng não
AI Agent đang tiếp quản mô hình ngôn ngữ lớn LLM và trở thành chủ đề nóng nhất trong giới AI.
Hiện tại, tình hình trong vòng tròn đầu tư mạo hiểm AI đại khái như sau:
Big Factory Club: Nhân viên nội bộ của OpenAI cho rằng AI Agent là hướng đi mới của OpenAI; Microsoft đang cố gắng thúc đẩy phi công phụ và để AI đóng vai trò trợ lý, đây là một kịch bản AI điển hình; NVIDIA đã ra mắt Voyager, AI Agent này có thể tự chủ Viết mã để thống trị trò chơi "Minecraft"; SenseTime trong nước cũng ra mắt đại lý AI tổng quát; Alibaba ra mắt nhân viên kỹ thuật số...
Vòng tròn học thuật: Vào tháng 4 năm nay, Stanford đã thành lập một thị trấn Westworld, cho phép 25 Đặc vụ AI mô phỏng con người trong môi trường hộp cát của thị trấn ảo và yêu, tiệc tùng, cộng tác, hẹn hò, v.v. với các Đặc vụ AI khác. Ngoài ra, một số học giả đã bắt đầu sử dụng Tác nhân AI để thiết kế các thí nghiệm khoa học phức tạp, bao gồm tự động đọc báo trực tuyến và nghiên cứu thuốc chống ung thư... Những khám phá tiên tiến này thật đáng kinh ngạc.
Vòng tròn doanh nhân: AI Agent không chỉ là trò chơi dành cho các nhà khoa học hàng đầu. Nhiều dự án như Camel, AutoGPT, BabyAGI và AgentGPT đã xuất hiện. Ngoài ra còn có một số lượng lớn các nhà phát triển và doanh nhân cộng đồng nguồn mở sử dụng các dự án nguồn mở này để tạo ra một số dụng cụ thực hành.. Ví dụ: aomni là một ứng dụng AI Agent giúp người dùng nắm bắt thông tin mạng và gửi qua email.
Từ những nhận định này, vẫn còn quá sớm để nói rằng “AI Agent đã mở ra nửa sau của các mô hình lớn”, nhưng cần phải nói rõ rằng “AI Agent là tiêu chuẩn thương mại cho các mô hình lớn”.
Do đó, tiếp theo chúng ta sẽ thấy nhiều nhà sản xuất và công ty khởi nghiệp lớn thực hiện nhiều hành động hơn đối với Tác nhân AI.
Vậy chính xác AI Agent là gì? Tại sao lại nói nó là điều kiện cần cho việc thương mại hóa các mô hình lớn?
Mô hình lớn kiêu ngạo, ngạo mạn nhưng người dùng vẫn không trả tiền.
Ở đây chúng ta đặt Tác nhân AI sang một bên và xem mô hình lớn trông như thế nào.
Tôi tin rằng hầu hết độc giả đều đồng ý rằng các mô hình lớn là thứ có tầm nhìn cao, đầu tư cao và ngưỡng cao. Từ góc độ tình cảm, có thể hiện thực hóa trí tuệ nhân tạo nói chung và thay đổi hoàn toàn xã hội; từ góc độ thế tục, nó có thể tái cấu trúc doanh nghiệp/ sản phẩm và cho phép các công ty công nghệ tăng hiệu suất.
Nhưng tất cả đều dựa trên thực tế là các mô hình lớn có thể được thương mại hóa thực sự, thu hồi chi phí R&D và đạt được sự phát triển lành mạnh và bền vững.
Trong vài tháng qua, hai mô hình kinh doanh cho các mô hình lớn đã trở nên hiệu quả hơn: một là việc chính phủ và doanh nghiệp trong các ngành khác nhau triển khai các mô hình lớn tại địa phương được tư nhân hóa; hai là sức mạnh tính toán cần thiết để bán các mô hình lớn thông qua đám mây, máy chủ AI , v.v.
Hiện các nhà sản xuất trong nước đã công bố các báo cáo kinh doanh tương ứng và thu về hàng chục triệu doanh thu từ nhu cầu triển khai tư nhân hóa trong ngành.
Tuy nhiên, chỉ riêng hoạt động kinh doanh ToB không thể hỗ trợ một mô hình kinh doanh quy mô lớn.
Trong cuộc cách mạng công nghệ, công nghệ cốt lõi phải được hàng tỷ người dùng thông thường sử dụng để tạo ra giá trị kinh tế. Sau khi PC gia đình, Internet và điện thoại thông minh trở nên phổ biến trong đại chúng, giá trị thị trường của nhiều công ty công nghệ tăng vọt.
Vậy trải nghiệm ứng dụng thực tế là gì?
Các tình huống như trò chuyện, vẽ tranh, sáng tạo có tỷ lệ mắc lỗi cao, ngay cả khi AI trả lời sai câu hỏi, người dùng vẫn sẽ thấy "dễ thương". Phần này của ứng dụng vốn đã rất phức tạp, chẳng hạn như " Ảnh ID AI". Trong hầu hết các tình huống, AI cần thiết để tự động giúp bạn xử lý các nhiệm vụ nghiêm trọng hơn, hợp tác với các điều kiện môi trường khác và giải quyết công việc kinh doanh lâu dài và liên tục. Đừng mắc quá nhiều sai lầm, nếu không mọi người sẽ phải tham gia với số lượng lớn, và Không thể thực sự tăng năng suất.
Rõ ràng, loại kịch bản này không thể được giải quyết tốt bằng một mô hình đa năng lớn và phức tạp hiện nay.
Lấy một nhà văn như tôi làm ví dụ, nếu tôi để một người mẫu lớn viết bản thảo cho mình thì có thể sẽ bị ảo giác, tôi phải kiểm tra lại các sự kiện/tin tức/báo cáo được đề cập, việc này còn rắc rối hơn việc tự mình tìm kiếm thông tin và chưa đủ chính xác. Để nảy ra ý tưởng, tôi phải dùng những từ gợi ý để truyền cảm hứng trong một thời gian dài và có thể không có cái nào có thể sử dụng được. Nó chậm và mệt mỏi, vì vậy tôi cũng có thể viết nó riêng tôi.
Việc không thể tự động hoàn thành nhiệm vụ trong một bước đòi hỏi phải có một lượng lớn con người can thiệp vào quá trình xem xét, đây hiện là khó khăn lớn trong việc áp dụng các mô hình lớn trong các tình huống nghiêm trọng và nó cũng ảnh hưởng trực tiếp đến tiến độ triển khai và thương mại hóa mô hình lớn .
Làm thế nào để làm nó? Nếu các mô hình lớn muốn hoạt động tốt thì rất cần một nhóm người trợ giúp và đó chính là AI Agent.
Giải phóng năng suất thực sự, tại sao AI Agent lại tuyệt vời đến vậy?
Hãy tưởng tượng, nếu một mô hình lớn có thể tự hoạt động 24 giờ một ngày, 7 ngày một ngày mà không cần sự can thiệp của con người, nó có thể tự mình hoàn thành nhiều công việc khác nhau, mọi người chỉ cần thỉnh thoảng quay lại máy tính hoặc văn phòng để xem nó hoạt động như thế nào ... Đây là cách chính xác để mở một mô hình lớn.
Tại hội nghị GPT-4, OpenAI đã chứng minh khả năng tự động hóa một số tác vụ, chẳng hạn như cho phép GPT4 nhận dạng các bản phác thảo để tạo trang web và sửa lỗi trong mã của chính nó từng bước.
Nhưng làm thế nào khả năng này có thể được các nhà phát triển và người dùng bình thường sử dụng? Nhiều nhà phát triển đã phản hồi rằng nếu viết code trực tiếp bằng GPT4 thì vẫn phải tự debug, không thể nhìn hình để tạo code để sử dụng trực tiếp, có khi không dùng thì tốt hơn.
Các nhà sản xuất mô hình lớn cũng đang trong tình thế tiến thoái lưỡng nan, tôi đã mở API, để đạt được các khả năng chuyên nghiệp, chính xác và tinh tế hơn thì cần có người phát triển thêm nên tôi đã giao dùi cui cho Đặc vụ AI.
AI Agent là một thực thể tự động của AI trong môi trường, có 4 đặc điểm cốt lõi:
Cảm nhận môi trường xung quanh thông qua các cảm biến. Môi trường này có thể là ảo, chẳng hạn như trò chơi hộp cát, hệ thống đào tạo mô phỏng, mô phỏng lái xe tự động, v.v. hoặc có thể là vật lý, chẳng hạn như đường, phòng, dây chuyền lắp ráp, v.v.
Có khả năng đưa ra quyết định một cách độc lập.
Người thực hiện/người thực hiện làm việc cùng nhau để thực hiện hành động.
Học hỏi và tiến bộ dựa trên việc tối đa hóa hiệu suất và tối ưu hóa kết quả.
Trên thực tế, Agent trong AI cũng có logic tương tự. Lấy Tác nhân AI trong kịch bản lái xe tự động làm ví dụ. Các cảm biến cần thiết để thu thập thông tin và cảm nhận các yếu tố môi trường như phương tiện giao thông đường bộ và người đi bộ. Sau đó, hệ thống sẽ tự động đưa ra quyết định và điều khiển chân ga, phanh và các thiết bị khác để phản ứng phù hợp .
Đây còn được gọi là mô hình PEAS của AI Agent. Hãy lập một bảng đơn giản để bạn cảm nhận:
Đầu tiên, dỡ bỏ nhiệm vụ.
Các mô hình lớn cần được kết hợp với một trường cụ thể và nhu cầu của người dùng mà họ gặp phải là tương đối chung và quy trình này thường bao gồm nhiều bước. Đúng như người dùng nói “cần phải có ánh sáng”, một mô hình lớn bị cô lập không biết trong môi trường có những loại đèn nào, cũng như không biết cách điều khiển chúng, do đó, ngay cả với một mô hình lớn cũng không thể xử lý được việc tưởng chừng như đơn giản này. nhưng thực sự là nhiệm vụ phức tạp.
Tác nhân AI có khả năng lập kế hoạch nhiệm vụ và có thể tự động hiểu và quyết định cách lập kế hoạch cho các bước, phân bổ nguồn lực, tối ưu hóa các quyết định và sau đó hoàn thành các hướng dẫn, nâng cao hiệu quả và độ chính xác của các nhiệm vụ xử lý mô hình lớn.
Trong một bài báo của nhóm nghiên cứu Google Brain, mô hình ngôn ngữ lớn được yêu cầu nói ra quy trình suy luận phân rã các bước nhiệm vụ, tức là “độc thoại nội tâm”, sau đó thực hiện các hành động tương ứng, điều này đột ngột cải thiện độ chính xác của kết quả. Nó đã đạt được kết quả SOTA trên nhiều tập dữ liệu, cải thiện tính vô nghĩa của các mô hình lớn.
Thứ hai, thực hiện tự động.
AI Agent được thiết kế để suy nghĩ và hành động độc lập, người dùng chỉ cần giao nhiệm vụ cho nó và để nó thực hiện công việc của mình. Một ví dụ điển hình của AutoGPT là đặt pizza, người dùng không cần nhập địa chỉ hay chọn hương vị, AI Agent sẽ đảm nhiệm tất cả các bước đặt hàng và thực hiện tự động, mọi người có thể quan sát từ bên cạnh và sửa lỗi trong thời gian nếu có sai phạm.
AI Agent không chỉ có thể sử dụng Internet mà còn có thể làm việc trong môi trường vật lý, điều khiển robot để chuyển phát nhanh, ô tô không người lái, lái xe tự động, v.v.
Với AI Agent, sự tương tác giữa người dùng và các mô hình lớn sẽ tự nhiên, đơn giản và nhanh chóng hơn, giảm bớt sự tham gia thủ công và thực sự nâng cao chất lượng, hiệu quả. Ví dụ: trong thế giới trò chơi, Tác nhân AI có thể tự động bắt đầu cuộc đối thoại với người chơi, cung cấp sự tương tác mở và thiết kế các mạch truyện vô tận dựa trên phản hồi của người chơi, thực sự khiến trò chơi trở nên dễ tiếp cận hơn với hàng nghìn người; trong thế giới thực, Tác nhân AI có thể tự động tạo ra các hướng dẫn và Vận hành, điều khiển thân máy, cung cấp dịch vụ dọn phòng cho con người và tự động hóa các hoạt động trong nhà máy mà không cần dựa vào sự hướng dẫn của con người.
Thứ ba, tiết kiệm tài nguyên.
Giống như con người, Tác nhân AI có thể sử dụng các công cụ, tức là gọi API, để xử lý các tác vụ phức tạp hơn, giúp mở rộng đáng kể khả năng của các mô hình lớn và giảm lãng phí cũng như tiêu thụ quá nhiều tài nguyên.
Ví dụ: khi viết mã cho AutoGPT, bạn cần truy cập dữ liệu nguồn thông tin độc quyền, tài nguyên máy tính, v.v. Trong quá trình này, Tác nhân AI có thể tự động tìm API thích hợp để gọi, do đó tránh lãng phí các mã thông báo API khác. Bạn cũng có thể tự học, tối ưu hóa kết quả và gọi lại API nếu không hài lòng.
Nói chung, để thực sự hoàn thành một hướng dẫn chưa rõ ràng cho người dùng, chẳng hạn như lập kế hoạch du lịch, mô hình cần gọi nhiều API để giải quyết vấn đề. hấp dẫn và cạnh tranh hơn.
Để thương mại hóa các mô hình lớn, mô hình API yêu cầu sự tham gia của càng nhiều nhóm nhà phát triển càng tốt và mô hình công nghiệp cũng yêu cầu các nhà tích hợp ISV, nhà cung cấp dịch vụ phần mềm, v.v. Mọi người đều biết rằng rất khó để giành chiến thắng với mô hình cơ bản của một nhà sản xuất lớn và chúng tôi hy vọng sẽ tìm được cơ hội trong các ứng dụng cấp trên được chia nhỏ. AI Agent có thể giải quyết các vấn đề cụ thể, cải thiện hiệu ứng mô hình và điều khiển các hệ thống kỹ thuật số và thực thể vật lý nên rất phù hợp để xây dựng các siêu ứng dụng.
Nếu AI Agent giống như đơn vị nhỏ nhất của cuộc sống AI thì các nhà sản xuất mô hình lớn là những nhà máy sản sinh ra sự sống, còn các nhà phát triển, nhà cung cấp phần mềm… giống như những lớp đào tạo kỹ năng, dạy cho họ một số kỹ năng thực tế và khác biệt dành cho ngành. với người dùng.
Do đó, mô hình lớn nào có thể xây dựng AI Agent tốt hơn sẽ thu hút hệ sinh thái phát triển lớn hơn và gắn bó hơn với người dùng B-end thương mại, tạo thành cơ hội lớn ở cấp độ nền tảng AI.
Tóm lại, AI Agent ảnh hưởng trực tiếp đến hiệu quả mô hình, chất lượng dịch vụ, chi phí triển khai và khả năng sinh thái của các mô hình lớn và sẽ là chìa khóa cho sự cạnh tranh của nhiều mô hình lớn trong tương lai.
Nếu AI Agent làm tốt thì không thể thiếu mô hình.
Sau đó, bạn có thể hỏi, làm thế nào chúng ta có thể tạo ra một Tác nhân AI tốt? Điều này đặt ra những thách thức gì cho các mô hình lớn?
Chúng tôi tin rằng để AI Agent được triển khai, các mô hình lớn cần thực hiện các nhiệm vụ sau, đây cũng sẽ là trọng tâm cạnh tranh trong tương lai:
Khả năng và tác dụng của Tác nhân AI được xác định bởi khả năng của mô hình cơ bản cơ bản. Tác nhân AI có thể không sử dụng được các khả năng của mô hình cơ bản, nhưng Tác nhân AI có thể không có các khả năng mà mô hình cơ bản không có.
Lấy nhiệm vụ ngôn ngữ làm ví dụ, GPT-4 cung cấp khả năng hiểu ngôn ngữ tự nhiên mạnh mẽ, nhưng hiện tại rất ít trong số chúng thực sự được triển khai trong các tác nhân và sản phẩm AI. Một số NPC trong trò chơi vẫn chưa có khả năng đưa ra quyết định tự chủ.
Một ví dụ khác, mặc dù GPT-4 là đa phương thức nhưng nó chỉ mở API ngôn ngữ, do đó, các nhà phát triển muốn sử dụng khả năng đa phương thức của GPT4 để xây dựng Tác nhân AI vẫn chưa thể thực hiện được, còn các phương thức khác như hình ảnh và âm thanh thì không thể thực hiện được. Còn thiếu Dựa trên trạng thái thông tin, sự hiểu biết và tác động của Tác nhân AI đối với môi trường vẫn cần được cải thiện.
Do đó, dù là mô hình nguồn mở hay mô hình nguồn đóng, nếu bạn muốn thương mại hóa nó thông qua nền kinh tế API thì khả năng của mô hình cơ bản sẽ liên quan trực tiếp đến chất lượng của Tác nhân AI và vẫn có phòng để cải thiện.
Để trở thành một AI Agent giỏi, việc thu thập và sử dụng dữ liệu là điều kiện tiên quyết cơ bản. Đối với các nhà phát triển, lượng dữ liệu cần thiết cho các tác vụ số không còn là vấn đề nữa, nhưng khi phát triển các tác nhân AI trong thế giới vật lý, chi phí dữ liệu rất cao. Dữ liệu điều khiển robot thường chỉ có thể được thu thập bởi chính bạn thông qua trình mô phỏng hoặc bộ sưu tập robot vật lý tại chỗ. Nhưng xét cho cùng, trình mô phỏng không phải là môi trường thực và hiệu quả huấn luyện có thể không tốt, tuy nhiên, việc mua hàng trăm robot và máy bay không người lái để thực sự đi trên đường và vào các nhà máy để thu thập dữ liệu đòi hỏi phải đầu tư rất nhiều về mặt mua sắm. chi phí, hạn chế về chính sách, thực tế triển khai… Khó khăn.
Tại thời điểm này, các nhà sản xuất mô hình lớn với lợi thế về dữ liệu, chẳng hạn như lợi thế lái xe tự động của Google và Baidu cũng như lợi thế về dữ liệu của Microsoft, Google, Sogou, Baidu và các doanh nghiệp tìm kiếm khác, có thể giảm bớt một số rào cản cho các nhà phát triển khám phá Đại lý AI và cũng sẽ Xây dựng rào cản đối với các mô hình lớn từ các nhà cung cấp này.
Phải thừa nhận rằng các cơ hội ứng dụng mô hình lớn do AI Agent đại diện vẫn còn ở giai đoạn rất sớm, công nghệ vẫn chưa hoàn thiện và việc thăm dò thương mại mới chỉ thực hiện một bước nhỏ. Đối với các nhà phát triển, nhà cung cấp dịch vụ phần mềm, v.v., điều quan trọng hơn và cần xem xét sớm hơn cách triển khai Tác nhân AI trong mã là tưởng tượng xem Tác nhân AI sẽ đi đâu:
Nó nên trông giống cái gì? Tên bạn là gì? Có giới tính không? Bạn sử dụng loại tính cách nào để nói chuyện với người dùng? Các trường hợp sử dụng là gì? Bạn sẽ gặp phải những khó khăn cụ thể nào? Làm thế nào để đánh giá sự thành công của một Agent AI?
Đây là những "vùng đất không có con người" ở cấp độ sản phẩm và cấp độ thương mại. Để cho phép các nhà phát triển thỏa sức tưởng tượng và cố gắng tạo ra Tác nhân AI trong nhiều môi trường và nhiệm vụ khác nhau, các nhà sản xuất mô hình lớn cần phải mở ra hệ sinh thái kinh doanh của riêng mình và cung cấp các dịch vụ phong phú và đa dạng hơn. các giải pháp thuận tiện hơn, có chức năng giảm rủi ro thử và sai cho các nhà phát triển, tăng cường độ kết nối với người dùng doanh nghiệp và tạo ra nhiều tùy chọn kinh doanh hơn cũng như các trường hợp triển khai.
Nhìn chung, lĩnh vực này vẫn còn rất mới và AI Agent vẫn chưa có tác động rõ rệt đến ngành công nghiệp mô hình lớn, nhưng chắc chắn rằng AI Agent sẽ loại bỏ một lượng lớn các tương tác rườm rà giữa con người và hệ thống AI, và điều đó đang diễn ra. .
Ngày càng có nhiều Đại lý AI được đưa tới các cộng đồng và người dùng. Họ học hỏi, thay đổi và phát triển. Có lẽ trong vài tháng nữa, chúng ta sẽ chứng kiến sự trưởng thành và bùng nổ của Tác nhân AI, điều này chắc chắn sẽ gây ra một cuộc cải tổ khác trong lĩnh vực mô hình lớn.