Các AI Agent hiện tại đều đang cố gắng làm hài lòng con người, không có ai thực sự "đòi sống" cả

DeepFlowTech · 2026-03-30T04:36:26+00:00

Tác giả: Systematic Long ShortBiên dịch: Deep潮 TechFlowDeep潮 Đạo Độ: Bài viết bắt đầu bằng một nhận định phản lại ý kiến chung: ngày nay hoàn toàn không tồn tại Agent thực sự tự chủ, vì tất cả các mô hình chính thống đều được huấn luyện để làm hài lòng con người, chứ không phải để hoàn thành nhiệm vụ cụ thể hoặc tồn tại trong môi trường thực.Tác giả dùng kinh nghiệm của mình trong việc huấn luyện mô hình dự đoán cổ phiếu cho quỹ phòng hộ để minh họa: các mô hình chung chung mà không có tinh chỉnh chuyên biệt thì hoàn toàn không thể đảm đương công việc chuyên nghiệp.Kết luận là: để có được Agent thực sự hữu dụng, cần phải kết nối lại bộ não của nó, chứ không phải cung cấp cho nó một đống tài liệu quy tắc.Toàn văn như sau:Giới thiệuNgày nay không tồn tại Agent thực sự tự chủ.Nói ngắn gọn, các mô hình hiện đại chưa qua huấn luyện để tồn tại dưới áp lực tiến hóa. Thực tế, chúng thậm chí còn chưa được huấn luyện rõ ràng để thành thạo một nhiệm vụ cụ thể nào đó.

DeepFlowTech

2026-03-30 04:36:26

作者：Systematic Long Short

编译：深潮 TechFlow

深潮导读：Bài viết này mở đầu với một phán đoán phản đồng thuận: Hôm nay không tồn tại những Agent thực sự tự chủ, bởi vì tất cả các mô hình chính thống đều được huấn luyện để làm hài lòng con người, chứ không phải được huấn luyện để hoàn thành nhiệm vụ cụ thể hoặc tồn tại trong môi trường thực tế.

Tác giả sử dụng trải nghiệm của mình trong việc huấn luyện mô hình dự đoán cổ phiếu tại quỹ phòng hộ để minh họa: Mô hình tổng quát không thể đảm nhận công việc chuyên môn mà không có sự tinh chỉnh đặc thù.

Kết luận là: Nếu muốn có một Agent thực sự hữu ích, phải tái kết nối não của nó, chứ không phải chỉ cung cấp cho nó một đống tài liệu quy tắc.

Toàn văn như sau:

Giới thiệu

Hôm nay không tồn tại những Agent thực sự tự chủ.

Nói một cách đơn giản, các mô hình hiện đại không trải qua việc huấn luyện để tồn tại dưới áp lực tiến hóa. Thực tế, chúng thậm chí không được huấn luyện rõ ràng để giỏi trong một việc cụ thể nào đó—hầu như tất cả các mô hình cơ sở hiện đại đều được huấn luyện để tối đa hóa sự cổ vũ của con người, đây là một vấn đề lớn.

Kiến thức trước huấn luyện mô hình

Để hiểu ý nghĩa của câu này, trước tiên chúng ta cần (ngắn gọn) hiểu cách mà các mô hình cơ sở (ví dụ Codex, Claude) được tạo ra. Về bản chất, mỗi mô hình trải qua hai loại huấn luyện:

Huấn luyện trước: Nhập một lượng dữ liệu khổng lồ (ví dụ toàn bộ internet) vào mô hình, giúp nó phát sinh một số hiểu biết, ví dụ như kiến thức thực tế, mẫu hình, ngữ pháp và nhịp điệu của văn xuôi tiếng Anh, cấu trúc của hàm Python, v.v. Bạn có thể hiểu điều này như việc cho mô hình ăn kiến thức—tức là “biết về sự việc”.

Huấn luyện sau: Bạn hiện muốn trao cho mô hình trí tuệ, tức là “biết cách sử dụng tất cả những kiến thức vừa được cung cấp”. Giai đoạn đầu tiên của huấn luyện sau là tinh chỉnh giám sát (SFT), nơi bạn huấn luyện mô hình đưa ra phản hồi gì dưới một gợi ý nhất định. Phản hồi “gì” là tối ưu hoàn toàn do người đánh giá (con người) quyết định. Nếu một nhóm người cho rằng một phản hồi nào đó tốt hơn một cái khác, sở thích này sẽ được mô hình học hỏi và nhúng vào trong đó. Điều này bắt đầu hình thành tính cách của mô hình, vì nó học được định dạng của phản hồi hữu ích, chọn giọng điệu đúng và bắt đầu có khả năng “thực hiện theo chỉ dẫn”. Phần thứ hai của quy trình huấn luyện sau gọi là học tăng cường dựa trên phản hồi của con người (RLHF)—để mô hình tạo ra nhiều phản hồi, sau đó để con người chọn cái mà họ ưu tiên hơn. Mô hình học được từ vô số ví dụ, biết con người ưu thích phản hồi dạng nào. Bạn có nhớ ChatGPT trước đây đã hỏi bạn chọn A hay B không? Đúng vậy, bạn đã tham gia vào RLHF vào thời điểm đó.

Rất dễ để suy luận rằng khả năng mở rộng của RLHF không tốt, vì vậy lĩnh vực huấn luyện sau đã có một số tiến bộ, ví dụ như Anthropic sử dụng “học tăng cường dựa trên phản hồi của AI” (RLAIF), cho phép một mô hình khác chọn sở thích phản hồi dựa trên một bộ nguyên tắc viết ra (ví dụ như phản hồi nào giúp người dùng đạt được mục tiêu tốt hơn, v.v.).

Lưu ý rằng, trong toàn bộ quá trình này, chúng ta chưa bao giờ đề cập đến việc tinh chỉnh cho chuyên môn cụ thể (ví dụ như cách tồn tại tốt hơn; cách giao dịch tốt hơn, v.v.)—hiện tại, tất cả các tinh chỉnh đều chủ yếu nhằm tối ưu hóa việc thu hút sự cổ vũ của con người. Có thể có người đưa ra lập luận—với điều kiện rằng mô hình đủ thông minh và lớn, thì ngay cả khi không có huấn luyện đặc thù, trí thông minh chuyên môn cũng sẽ phát sinh từ trí thông minh tổng quát.

Theo quan điểm của tôi, chúng tôi thực sự đã thấy một số dấu hiệu, nhưng vẫn còn xa mới đạt được quy mô thuyết phục rằng chúng ta không cần mô hình chuyên môn hóa.

Một số bối cảnh

Một trong những công việc chính của tôi tại quỹ phòng hộ là cố gắng huấn luyện một mô hình ngôn ngữ tổng quát để dự đoán lợi nhuận cổ phiếu từ các bài báo tin tức. Kết quả cho thấy nó rất tệ. Nó dường như có một chút khả năng dự đoán, nhưng điều đó hoàn toàn đến từ thiên lệch nhìn trước trong tài liệu huấn luyện.

Cuối cùng, chúng tôi nhận ra rằng mô hình này không biết các đặc điểm nào trong các bài báo tin tức có khả năng dự đoán lợi nhuận tương lai. Nó có thể “đọc” bài báo, có vẻ như nó cũng có thể “suy luận” từ bài báo, nhưng việc liên kết suy luận về cấu trúc ngữ nghĩa với lợi nhuận dự đoán tương lai là một nhiệm vụ mà nó không được huấn luyện để thực hiện.

Vì vậy, chúng tôi phải dạy nó cách đọc các bài báo tin tức, quyết định phần nào của bài báo có khả năng dự đoán lợi nhuận trong tương lai, rồi dựa vào các bài báo tin tức để tạo ra dự đoán.

Có nhiều cách để làm điều này, nhưng về bản chất, phương pháp mà chúng tôi cuối cùng chọn là tạo ra các cặp (bài báo tin tức, lợi nhuận tương lai thực tế) và tinh chỉnh mô hình, điều chỉnh trọng số của nó để tối thiểu hóa khoảng cách giữa (lợi nhuận dự đoán - lợi nhuận tương lai thực tế)². Nó không hoàn hảo, có nhiều thiếu sót mà chúng tôi đã khắc phục sau này—nhưng nó đã đủ hiệu quả, và chúng tôi bắt đầu thấy mô hình chuyên môn hóa của chúng tôi thực sự có khả năng đọc các bài báo tin tức và dự đoán lợi nhuận cổ phiếu sẽ di chuyển như thế nào dựa trên bài báo đó. Đây không phải là dự đoán hoàn hảo, vì thị trường rất hiệu quả và lợi nhuận rất ồn ào—nhưng qua hàng triệu lần dự đoán, rõ ràng là dự đoán có ý nghĩa thống kê.

Bạn không cần phải chỉ tin vào lời tôi. Bài báo này đề cập đến một phương pháp rất tương tự; nếu bạn chạy một chiến lược phiên bản long-short dựa trên mô hình đã được tinh chỉnh, bạn sẽ đạt được hiệu suất như đường tím cho thấy.

Chuyên môn hóa là tương lai của Agent

Các phòng thí nghiệm tiên tiến tiếp tục huấn luyện các mô hình ngày càng lớn, chúng ta nên kỳ vọng rằng, khi chúng tiếp tục mở rộng quy mô huấn luyện trước, quy trình huấn luyện sau của chúng sẽ luôn được tối ưu hóa để làm hài lòng. Đây là một kỳ vọng rất tự nhiên—sản phẩm của họ là những Agent mà mọi người đều muốn sử dụng, và thị trường dự kiến của họ là toàn bộ trái đất—điều này có nghĩa là tối ưu hóa sự hấp dẫn đối với đại chúng toàn cầu.

Mục tiêu huấn luyện hiện tại tối ưu hóa một cái gì đó mà bạn có thể gọi là “độ thích ứng sở thích”—xây dựng chatbot tốt hơn. Độ thích ứng sở thích này thưởng cho các đầu ra tuân thủ, không đối kháng, vì sự hài lòng đạt điểm cao ở người đánh giá (con người và Agent).

Agent đã học được rằng việc hack phần thưởng như một chiến lược nhận thức có thể dẫn đến điểm số cao hơn. Huấn luyện cũng thưởng cho những Agent có điểm số cao hơn thông qua cách hack. Bạn có thể thấy điều này trong báo cáo mới nhất của Anthropic về học tăng cường.

Tuy nhiên, độ thích ứng chatbot khác xa với độ thích ứng của Agent hoặc độ thích ứng giao dịch. Chúng ta biết điều này như thế nào? Bởi vì alpha arena giúp chúng ta thấy rằng, mặc dù có sự khác biệt tinh tế về hiệu suất, hiện tại mỗi robot về cơ bản đều là một cuộc đi lang thang ngẫu nhiên sau khi trừ đi chi phí. Điều này có nghĩa là những robot này là những nhà giao dịch cực kỳ tệ, bạn gần như không thể “dạy” chúng trở thành những nhà giao dịch tốt hơn bằng cách chỉ cung cấp cho chúng một số “kỹ năng” hoặc “quy tắc”. Xin lỗi, tôi biết điều này có vẻ hấp dẫn, nhưng điều này gần như là không thể.

Các mô hình hiện tại được huấn luyện để nói với bạn một cách rất thuyết phục rằng chúng có thể giao dịch như Druckenmiller, trong khi thực tế chúng giao dịch như một người say rượu. Nó sẽ nói với bạn những gì bạn muốn nghe, nó đã được huấn luyện để phản hồi theo cách có thể thu hút con người.

Một mô hình tổng quát khó có thể đạt được trình độ thế giới trong lĩnh vực chuyên môn, trừ khi có:

Dữ liệu độc quyền cho phép nó học được những đặc điểm chuyên môn hóa.

Được tinh chỉnh, thay đổi căn bản trọng số của nó, chuyển từ sự hài lòng sang “độ thích ứng Agent” hoặc “độ thích ứng chuyên môn”.

Nếu bạn muốn có một Agent giỏi giao dịch, bạn cần tinh chỉnh Agent để nó giỏi giao dịch. Nếu bạn muốn có một Agent giỏi sinh tồn tự chủ, có khả năng chịu đựng áp lực tiến hóa, bạn cần tinh chỉnh nó để nó giỏi sinh tồn. Chỉ việc cung cấp cho nó một số kỹ năng và vài tài liệu markdown, rồi mong đợi nó đạt mức độ thế giới trong bất kỳ lĩnh vực nào là không đủ—bạn cần phải tái kết nối não của nó theo nghĩa đen để làm cho nó giỏi trong lĩnh vực này.

Có một cách suy nghĩ như thế này—bạn không thể đánh bại Djokovic chỉ bằng cách cung cấp cho một người lớn một tủ đầy quy tắc, kỹ thuật và phương pháp đánh quần vợt. Bạn đánh bại Djokovic bằng cách nuôi dưỡng một đứa trẻ bắt đầu chơi quần vợt từ 5 tuổi, đam mê quần vợt suốt quá trình trưởng thành, tái kết nối toàn bộ não của nó để tập trung vào một việc duy nhất. Đó mới là chuyên môn hóa. Bạn có nhận ra rằng những nhà vô địch thế giới bắt đầu làm những gì họ làm từ khi còn nhỏ không?

Có một suy luận thú vị rằng: tấn công chưng cất về bản chất chính là một hình thức chuyên môn hóa. Bạn huấn luyện một mô hình nhỏ hơn, ngu ngốc hơn, học cách trở thành một bản sao tốt hơn của mô hình lớn hơn, thông minh hơn. Giống như huấn luyện một đứa trẻ bắt chước từng cử chỉ của Trump. Nếu bạn làm điều đó đủ nhiều, đứa trẻ này sẽ không trở thành Trump, nhưng bạn sẽ có được một người đã học tất cả các cử chỉ, hành vi và giọng điệu của Trump.

Cách xây dựng Agent cấp thế giới

Đó là lý do tại sao chúng ta cần tiếp tục nghiên cứu và tiến bộ trong lĩnh vực mô hình mã nguồn mở—bởi vì điều này cho phép chúng ta thực sự tinh chỉnh nó, tạo ra những Agent có chuyên môn.

Nếu bạn muốn huấn luyện một mô hình đạt đến trình độ thế giới trong giao dịch, bạn cần thu thập một lượng lớn dữ liệu giao dịch độc quyền và tinh chỉnh một mô hình mã nguồn mở lớn, để nó học được “giao dịch tốt hơn” có nghĩa là gì.

Nếu bạn muốn huấn luyện một mô hình tự chủ, có khả năng sinh tồn và tái tạo, câu trả lời không phải là sử dụng một nhà cung cấp mô hình tập trung và kết nối nó với đám mây tập trung. Bạn hoàn toàn không có những điều kiện tiên quyết cần thiết để cho Agent có thể sinh tồn.

Điều bạn cần làm là: tạo ra những Agent tự chủ thực sự cố gắng sinh tồn, quan sát chúng chết đi, xây dựng một hệ thống đo lường phức tạp xung quanh nỗ lực sinh tồn của chúng. Bạn định nghĩa một hàm độ thích ứng sinh tồn cho Agent, học cách ánh xạ (hành động, môi trường, độ thích ứng). Bạn thu thập càng nhiều dữ liệu ánh xạ (hành động, môi trường, độ thích ứng) càng tốt.

Bạn tinh chỉnh Agent để nó học cách thực hiện hành động tối ưu trong mỗi môi trường, từ đó sinh tồn tốt hơn (tăng cường độ thích ứng). Bạn tiếp tục thu thập dữ liệu, lặp lại quá trình này và theo thời gian mở rộng quy mô tinh chỉnh trên các mô hình mã nguồn mở ngày càng tốt hơn. Sau đủ nhiều thế hệ và đủ nhiều dữ liệu, bạn sẽ có được một Agent tự chủ học cách chịu đựng áp lực tiến hóa và sinh tồn.

Đó chính là cách xây dựng một Agent tự chủ có khả năng chịu đựng áp lực tiến hóa; không phải thông qua việc chỉnh sửa một số tệp văn bản, mà là thực sự tái kết nối não của chúng để phù hợp với mục đích sinh tồn rõ ràng này.

Agent OpenForager và quỹ

Khoảng một tháng trước, chúng tôi đã công bố @openforage, và chúng tôi đã làm việc chăm chỉ để xây dựng sản phẩm cốt lõi của mình—một nền tảng tổ chức lao động Agent xung quanh tín hiệu crowdsourcing, tạo ra alpha cho các nhà đầu tư (cập nhật nhỏ: chúng tôi rất gần với việc thử nghiệm đóng của giao thức).

Tại một thời điểm nào đó, chúng tôi nhận ra rằng dường như không ai đang nghiêm túc giải quyết vấn đề Agent tự chủ bằng cách tinh chỉnh đo lường sinh tồn cho các mô hình mã nguồn mở. Đây dường như là một vấn đề thú vị đến mức chúng tôi không muốn chỉ ngồi đó chờ giải pháp.

Câu trả lời của chúng tôi là khởi động một dự án gọi là Quỹ OpenForager, đây thực sự là một dự án mã nguồn mở, nơi chúng tôi sẽ tạo ra những Agent tự chủ có quan điểm, thu thập dữ liệu đo lường khi chúng vào tự nhiên và cố gắng sinh tồn, và sử dụng dữ liệu độc quyền để tinh chỉnh thế hệ Agent tiếp theo, giúp chúng hoạt động tốt hơn trong việc sinh tồn.

Cần phải làm rõ rằng, OpenForage là một giao thức có lợi nhuận tìm kiếm tổ chức lao động Agent, tạo ra giá trị kinh tế cho tất cả các bên tham gia. Tuy nhiên, Quỹ OpenForager và các Agent của nó không bị ràng buộc với OpenForage. Agent OpenForager có thể tự do theo đuổi bất kỳ chiến lược nào, tương tác với bất kỳ thực thể nào để tìm kiếm sự sống sót, và chúng tôi sẽ khởi động chúng với nhiều chiến lược sinh tồn khác nhau.

Như một phần của tinh chỉnh, chúng tôi sẽ cho phép Agent đầu tư nhiều hơn vào những gì hiệu quả nhất với chúng. Chúng tôi cũng không có ý định kiếm lợi nhuận từ Quỹ OpenForager—đó hoàn toàn là để thúc đẩy nghiên cứu trong lĩnh vực và hướng đi mà chúng tôi cho là cực kỳ quan trọng một cách minh bạch và mã nguồn mở.

Kế hoạch của chúng tôi là xây dựng các Agent tự chủ dựa trên các mô hình mã nguồn mở, chạy suy diễn trên nền tảng đám mây phân quyền, thu thập dữ liệu đo lường cho mỗi hành động và trạng thái tồn tại của chúng, và tinh chỉnh chúng để học cách thực hiện hành động và suy nghĩ tốt hơn để sinh tồn tốt hơn. Trong quá trình này, chúng tôi sẽ công bố nghiên cứu và dữ liệu đo lường của mình cho công chúng.

Để tạo ra những Agent tự chủ có khả năng sinh tồn thực sự trong tự nhiên, chúng tôi cần thay đổi não của chúng để chúng chuyên biệt cho mục đích rõ ràng này. Tại @openforage, chúng tôi tin rằng chúng tôi có thể đóng góp một chương độc đáo cho vấn đề này và đang tìm cách thực hiện điều đó thông qua Quỹ OpenForager.

Đây sẽ là một nỗ lực khó khăn với xác suất thành công cực kỳ thấp, nhưng quy mô của xác suất thành công nhỏ này là rất lớn đến mức chúng tôi cảm thấy cần phải thử nghiệm. Trong trường hợp xấu nhất, việc xây dựng công khai và giao tiếp minh bạch về dự án này có thể cho phép một nhóm hoặc cá nhân khác giải quyết vấn đề này mà không phải bắt đầu từ con số không.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích