從算力到智能,強化學習驅動的去中心化AI投資地圖

人工智能正從以「模式擬合」為主的統計學習,邁向以「結構化推理」為核心的能力體系,後訓練(Post-training)的重要性快速上升。DeepSeek-R1 的出現標誌著強化學習在大模型時代的範式級翻轉,行業共識形成:預訓練構建模型的通用能力基座,強化學習不再只是價值對齊工具,而被證明能夠系統提升推理鏈質量與複雜決策能力,正逐步演化為持續提升智能水平的技術路徑。

與此同時,Web3 正透過去中心化算力網絡與加密激勵體系重構 AI 的生產關係,而強化學習對 rollout 采樣、獎勵信號與可驗證訓練的結構性需求,恰與區塊鏈的算力協作、激勵分配與可驗證執行天然契合。本研報將系統拆解 AI 訓練範式與強化學習技術原理,論證強化學習 × Web3 的結構優勢,並對 Prime Intellect、Gensyn、Nous Research、Gradient、Grail 和 Fraction AI 等項目進行分析。

AI 訓練的三階段:預訓練、指令微調與後訓練對齊

現代大語言模型(LLM)訓練全生命週期通常被劃分為三個核心階段:預訓練(Pre-training)、監督微調(SFT)和後訓練(Post-training/RL)。三者分別承擔「構建世界模型—注入任務能力—塑造推理與價值觀」的功能,其計算結構、數據要求與驗證難度決定了去中心化的匹配程度。

· 預訓練(Pre-training)透過大規模自監督學習(Self-supervised Learning)構建模型的語言統計結構與跨模態世界模型,是 LLM 能力的根基。此階段需在萬億級語料上以全局同步方式訓練,依賴數千至數萬張 H100 的同構集群,成本佔比高達 80–95%,對帶寬與數據版權極度敏感,因此必須在高度集中式環境中完成。

· 微調(Supervised Fine-tuning)用於注入任務能力與指令格式,數據量小、成本佔比約 5–15%,微調既可以進行全參數訓練,也可以採用參數高效微調(PEFT)方法,其中 LoRA、Q-LoRA 與 Adapter 是工業界主流。但仍需同步梯度,使其去中心化潛力有限。

· 後訓練(Post-training)由多個迭代子階段構成,決定模型的推理能力、價值觀與安全邊界,其方法既包括強化學習體系(RLHF、RLAIF、GRPO)也包括無 RL 的偏好優化方法(DPO),以及過程獎勵模型(PRM)等。該階段數據量與成本較低(5–10%),主要集中在 Rollout 與策略更新;其天然支持異步與分散式執行,節點無需持有完整權重,結合可驗證計算與鏈上激勵可形成開放的去中心化訓練網絡,是最適配 Web3 的訓練環節。

強化學習技術全景:架構、框架與應用

強化學習的系統架構與核心環節

強化學習(Reinforcement Learning, RL)透過「環境交互—獎勵反饋—策略更新」驅動模型自主改進決策能力,其核心結構可視為由狀態、動作、獎勵與策略構成的反饋閉環。一個完整的 RL 系統通常包含三類組件:Policy(策略網絡)、Rollout(經驗采樣)與 Learner(策略更新器)。策略與環境交互生成軌跡,Learner 根據獎勵信號更新策略,從而形成持續迭代、不斷優化的學習過程:

  1. 策略網絡(Policy):從環境狀態生成動作,是系統的決策核心。訓練時需集中式反向傳播維持一致性;推理時可分發至不同節點並行運行。
  2. 經驗采樣(Rollout):節點根據策略執行環境交互,生成狀態—動作—獎勵等軌跡。該過程高度並行、通信極低,對硬體差異不敏感是最適合在去中心化中擴展的環節。
  3. 學習器(Learner):聚合全部 Rollout 軌跡並執行策略梯度更新,是唯一對算力、帶寬要求最高的模塊,因此通常保持中心化或輕中心化部署以確保收斂穩定性。

強化學習階段框架(RLHF → RLAIF → PRM → GRPO)

強化學習通常可分為五個階段,整體流程如下所述:

數據生成階段(Policy Exploration)

在給定輸入提示的條件下,策略模型 πθ 生成多條候選推理鏈或完整軌跡,為後續偏好評估與獎勵建模提供樣本基礎,決定了策略探索的廣度。

偏好反饋階段(RLHF / RLAIF)

· RLHF(Reinforcement Learning from Human Feedback)透過多候選回答、人工偏好標註、訓練獎勵模型(RM)並用 PPO 優化策略,使模型輸出更符合人類價值觀,是 GPT-3.5 → GPT-4 的關鍵一環

· RLAIF(Reinforcement Learning from AI Feedback)以 AI Judge 或憲法式規則取代人工標註,實現偏好獲取自動化,顯著降低成本並具備規模化特性,已成為 Anthropic、OpenAI、DeepSeek 等的主流對齊範式。

獎勵建模階段(Reward Modeling)

偏好對輸入獎勵模型,學習將輸出映射為獎勵。RM 教模型「什麼是正確答案」,PRM 教模型「如何進行正確推理」。

· RM(Reward Model)用於評估最終答案的好壞,僅對輸出打分:

· 過程獎勵模型 PRM(Process Reward Model)它不再只評估最終答案,而是為每一步推理、每個 token、每個邏輯段打分,也是 OpenAI o1 與 DeepSeek-R1 的關鍵技術,本質上是在「教模型如何思考」。

獎勵驗證階段(RLVR / Reward Verifiability)

在獎勵信號生成與使用過程中引入「可驗證約束」,使獎勵盡可能來自可復現的規則、事實或共識,從而降低 reward hacking 與偏差風險,並提升在開放環境中的可審計性與可擴展性。

策略優化階段(Policy Optimization)

是在獎勵模型給出的信號指導下更新策略參數 θ,以得到更強推理能力、更高安全性與更穩定行為模式的策略 πθ′。主流優化方式包括:

· PPO(Proximal Policy Optimization): RLHF 的傳統優化器,以穩定性見長,但在複雜推理任務中往往面臨收斂慢、穩定性不足等局限。

· GRPO(Group Relative Policy Optimization):是 DeepSeek-R1 的核心創新,透過對候選答案組內優勢分布進行建模以估計期望價值,而非簡單排序。該方法保留了獎勵幅度信息,更適合推理鏈優化,訓練過程更穩定,被視為繼 PPO 之後面向深度推理場景的重要強化學習優化框架。

· DPO(Direct Preference Optimization):非強化學習的後訓練方法:不生成軌跡、不建獎勵模型,而是直接在偏好對上做優化,成本低、效果穩定,因而被廣泛用於 Llama、Gemma 等開源模型的對齊,但不提升推理能力。

新策略部署階段(New Policy Deployment)

經過優化後的模型表現為:更強的推理鏈生成能力(System-2 Reasoning)、更符合人類或 AI 偏好的行為、更低的幻覺率、更高的安全性。模型在持續迭代中不斷學習偏好、優化過程、提升決策質量,形成閉環。

強化學習的產業應用五大分類

強化學習(Reinforcement Learning)已從早期的博弈智能演進為跨產業的自主決策核心框架,其應用場景按照技術成熟度與產業落地程度,可歸納為五大類別,並在各自方向推動了關鍵突破。

· 博弈與策略系統(Game & Strategy):是 RL 最早被驗證的方向,在 AlphaGo、AlphaZero、AlphaStar、OpenAI Five 等「完美信息 + 明確獎勵」的環境中,RL 展示了可與人類專家比肩甚至超越的決策智能,為現代 RL 演算法奠定基礎。

· 機器人與具身智能(Embodied AI):RL 透過連續控制、動力學建模與環境交互,使機器人學習操控、運動控制和跨模態任務(如 RT-2、RT-X),正快速邁向產業化,是現實世界機器人落地的關鍵技術路線。

· 數字推理(Digital Reasoning / LLM System-2):RL + PRM 推動大模型從「語言模仿」走向「結構化推理」,代表成果包括 DeepSeek-R1、OpenAI o1/o3、Anthropic Claude 及 AlphaGeometry,其本質是在推理鏈層面進行獎勵優化,而非僅評估最終答案。

· 自動化科學發現與數學優化(Scientific Discovery):RL 在無標籤、複雜獎勵與巨大搜索空間中尋找最優結構或策略,已實現 AlphaTensor、AlphaDev、Fusion RL 等基礎突破,展現出超越人類直覺的探索能力。

· 經濟決策與交易系統(Economic Decision-making & Trading):RL 被用於策略優化、高維風險控制與自適應交易系統生成,相較傳統量化模型更能在不確定環境中持續學習,是智能金融的重要構成部分。

強化學習與 Web3 的天然契合

強化學習(RL)與 Web3 的高度契合,源於二者本質上都是「激勵驅動系統」。RL 依賴獎勵信號優化策略,區塊鏈依靠經濟激勵協調參與者行為,使兩者在機制層面天然一致。RL 的核心需求——大規模異構 Rollout、獎勵分配與真實性驗證——正是 Web3 的結構優勢所在。

推理與訓練解耦

強化學習的訓練過程可明確拆分為兩個階段:

· Rollout (探索采樣):模型基於當前策略生成大量數據,計算密集型但通信稀疏型的任務。它不需要節點間頻繁通信,適合在全球分布的消費級 GPU 上並行生成。

· Update (參數更新):基於收集到的數據更新模型權重,需高帶寬中心化節點完成。

「推理—訓練解耦」天然契合去中心化的異構算力結構:Rollout 可外包給開放網絡,透過代幣機制按貢獻結算,而模型更新保持集中化以確保穩定性。

可驗證性 (Verifiability)

ZK 與 Proof-of-Learning 提供了驗證節點是否真實執行推理的手段,解決了開放網絡中的誠實性問題。在程式碼、數學推理等確定性任務中,驗證者只需檢查答案即可確認工作量,大幅提升去中心化 RL 系統的可信度。

激勵層,基於代幣經濟的反饋生產機制

Web3 的代幣機制可直接獎勵 RLHF/RLAIF 的偏好反饋貢獻者,使偏好數據生成具備透明、可結算、無需許可的激勵結構;質押與削減(Staking/Slashing)進一步約束反饋品質,形成比傳統眾包更高效且對齊的反饋市場。

多智能體強化學習(MARL)潛力

區塊鏈本質上是公開、透明、持續演化的多智能體環境,帳戶、合約與智能體不斷在激勵驅動下調整策略,使其天然具備構建大規模 MARL 實驗場的潛力。儘管仍在早期,但其狀態公開、執行可驗證、激勵可程式化的特性,為未來 MARL 的發展提供了原則性優勢。

經典 Web3 + 強化學習項目解析

基於上述理論框架,我們將對當前生態中最具代表性的項目進行簡要分析:

Prime Intellect: 異步強化學習範式 prime-rl

Prime Intellect 致力於構建全球開放算力市場,降低訓練門檻、推動協作式去中心化訓練,並發展完整的開源超級智能技術體系。其體系包括:Prime Compute(統一雲/分散式算力環境)、INTELLECT 模型家族(10B–100B+)、開放強化學習環境中心(Environments Hub)、以及大規模合成數據引擎(SYNTHETIC-1/2)。

Prime Intellect 核心基礎設施組件 prime-rl 框架專為異步分散式環境設計與強化學習高度相關,其餘包括突破帶寬瓶頸的 OpenDiLoCo 通信協議、保障計算完整性的 TopLoc 驗證機制等。

Prime Intellect 核心基礎設施組件一覽

技術基石:prime-rl 異步強化學習框架

prime-rl 是 Prime Intellect 的核心訓練引擎,專為大規模異步去中心化環境設計,透過 Actor–Learner 完全解耦實現高吞吐推理與穩定更新。執行者 (Rollout Worker) 與學習者 (Trainer) 不再同步阻塞,節點可隨時加入或退出,只需持續拉取最新策略並上傳生成數據即可:

· 執行者 Actor (Rollout Workers):負責模型推理和數據生成。Prime Intellect 創新性地在 Actor 端整合了 vLLM 推理引擎。vLLM 的 PagedAttention 技術和連續批處理(Continuous Batching)能力,使得 Actor 能夠以極高的吞吐量生成推理軌跡。

· 學習者 Learner (Trainer):負責策略優化。Learner 從共享的經驗回放緩衝區(Experience Buffer)中異步拉取數據進行梯度更新,無需等待所有 Actor 完成當前批次。

· 協調器 (Orchestrator):負責調度模型權重與數據流。

prime-rl 的關鍵創新點

· 完全異步(True Asynchrony):prime-rl 摒棄傳統 PPO 的同步範式,不等待慢節點、無需批次對齊,使任意數量與性能的 GPU 都能隨時接入,奠定去中心化 RL 的可行性。

· 深度整合 FSDP2 與 MoE:透過 FSDP2 參數切片與 MoE 稀疏激活,prime-rl 讓百億級模型在分散式環境中高效訓練,Actor 僅運行活躍專家,大幅降低顯存與推理成本。

· GRPO+(Group Relative Policy Optimization):GRPO 免除 Critic 網路,顯著減少計算與顯存開銷,天然適配異步環境,prime-rl 的 GRPO+ 更透過穩定化機制確保高延遲條件下的可靠收斂。

INTELLECT 模型家族:去中心化 RL 技術成熟度的標誌

INTELLECT-1(10B,2024 年 10 月)首次證明 OpenDiLoCo 能在跨三大洲的異構網絡中高效訓練(通信占比 <2%、算力利用率 98%),打破跨地域訓練的物理認知;

INTELLECT-2(32B,2025 年 4 月)作為首個 Permissionless RL 模型,驗證 prime-rl 與 GRPO+ 在多步延遲、異步環境中的穩定收斂能力,實現全球開放算力參與的去中心化 RL;

INTELLECT-3(106B MoE,2025 年 11 月)採用僅激活 12B 參數的稀疏架構,在 512×H200 上訓練並實現旗艦級推理性能(AIME 90.8%、GPQA 74.4%、MMLU-Pro 81.9% 等),整體表現已逼近甚至超越規模遠大於自身的中心化閉源模型。

Prime Intellect 此外還構建了數個支撐性基礎設施:OpenDiLoCo 透過時間稀疏通信與量化權重差,將跨地域訓練的通信量降低數百倍,使 INTELLECT-1 在跨三洲網絡仍保持 98% 利用率;TopLoc + Verifiers 形成去中心化可信執行層,以激活指紋與沙箱驗證確保推理與獎勵數據的真實性;SYNTHETIC 數據引擎則生產大規模高質量推理鏈,並透過流水線並行讓 671B 模型在消費級 GPU 集群上高效運行。這些組件為去中心化 RL 的數據生成、驗證與推理吞吐提供了關鍵的工程底座。INTELLECT 系列證明了這一技術體系可產生成熟的世界級模型,標誌著去中心化訓練體系從概念階段進入實用階段。

Gensyn: 強化學習核心栈 RL Swarm 與 SAPO

Gensyn 的目標是將全球閒置算力匯聚成一個開放、無需信任、可無限擴展的 AI 訓練基礎設施。其核心包括跨設備標準化執行層、點對點協調網絡與無需信任的任務驗證系統,並透過智能合約自動分配任務與獎勵。圍繞強化學習的特點,Gensyn 引入 RL Swarm、SAPO 與 SkipPipe 等核心機制,將生成、評估、更新三個環節解耦,利用全球異構 GPU 組成的「蜂群」實現集體進化。其最終交付的不是單純的算力,而是可驗證的智能(Verifiable Intelligence)。

Gensyn 堆疊的強化學習應用

RL Swarm:去中心化的協作式強化學習引擎

RL Swarm 展示了一種全新的協作模式。它不再是簡單的任務分發,而是一個模擬人類社會學習的去中心化的「生成—評估—更新」循環,類比協作式學習過程,無限循環:

· Solvers(執行者): 負責本地模型推理與 Rollout 生成,節點異構無礙。Gensyn 在本地整合高吞吐推理引擎(如 CodeZero),可輸出完整軌跡而非僅答案。

· Proposers(出題者): 動態生成任務(數學題、程式碼問題等),支持任務多樣性與類 Curriculum Learning 的難度自適應。

· Evaluators(評估者): 使用凍結的「裁判模型」或規則對本地 Rollout 進行評估,生成本地獎勵信號。評估過程可被審計,減少作惡空間。

三者共同組成一個 P2P 的 RL 組織結構,無需中心化調度即可完成大規模協作學習。

SAPO:為去中心化重構的策略優化算法

SAPO(Swarm Sampling Policy Optimization)以「共享 Rollout 並過濾無梯度信號樣本,而非共享梯度」為核心,透過大規模去中心化的 Rollout 采樣,並將接收的 Rollout 視為本地生成,從而在無中心協調、節點延遲差異顯著的環境中保持穩定收斂。相較依賴 Critic 網路、計算成本較高的 PPO,或基於組內優勢估計的 GRPO,SAPO 以極低帶寬使消費級 GPU 也能有效參與大規模強化學習優化。

透過 RL Swarm 與 SAPO,Gensyn 證明了強化學習(尤其是後訓練階段的 RLVR)天然適配去中心化架構——因為其更依賴於大規模、多樣化的探索(Rollout),而非高頻參數同步。結合 PoL 與 Verde 的驗證體系,Gensyn 為萬億級參數模型的訓練提供了一條不再依賴單一科技巨頭的替代路徑:一個由全球數百萬異構 GPU 組成的、自我演化的超級智能網絡。

Nous Research:可驗證強化學習環境 Atropos

Nous Research 在構建一套去中心化、可自我進化的認知基礎設施。其核心組件——Hermes、Atropos、DisTrO、Psyche 與 World Sim 被組織成一個持續閉環的智能演化系統。不同於傳統「預訓練—後訓練—推理」線性流程,Nous 采用 DPO、GRPO、拒絕采樣等強化學習技術,將數據生成、驗證、學習與推理統一為連續反饋回路,打造持續自我改進的閉環 AI 生態。

Nous Research 組件總覽

模型層:Hermes 與推理能力的演進

Hermes 系列是 Nous Research 面向用戶的主要模型接口,其演進清楚展現了行業從傳統 SFT/DPO 對齊向推理強化學習(Reasoning RL)遷移的路徑:

· Hermes 1–3:指令對齊與早期代理能力:Hermes 1–3 依靠低成本 DPO 完成穩健指令對齊,並在 Hermes 3 借助合成數據與首次引入的 Atropos 驗證機制。

· Hermes 4 / DeepHermes:透過思維鏈將 System-2 式慢思考寫入權重,以 Test-Time Scaling 提升數學與程式碼性能,並依賴「拒絕采樣 + Atropos 驗證」構建高純度推理數據。

· DeepHermes 進一步採用 GRPO 替代難以分布式落地的 PPO,使推理 RL 能在 Psyche 去中心化 GPU 網絡上運行,為開源推理 RL 的可擴展化奠定工程基礎。

Atropos:可驗證獎勵驅動的強化學習環境

Atropos 是 Nous RL 體系的真正樞紐。它將提示、工具調用、程式碼執行和多輪交互封裝成標準化 RL 環境,可直接驗證輸出是否正確,從而提供確定性獎勵信號,取代昂貴且不可擴展的人類標註。更重要的是,在去中心化訓練網絡 Psyche 中,Atropos 充當「裁判」,用於驗證節點是否真實提升策略,支持可審計的 Proof-of-Learning,從根本上解決分散式 RL 中的獎勵可信性問題。

DisTrO 與 Psyche:去中心化強化學習的優化器層

傳統 RLF(RLHF/RLAIF)訓練依賴中心化高帶寬集群,這是開源無法複製的核心壁壘。DisTrO 透過動量解耦與梯度壓縮,將 RL 的通信成本降低數個數量級,使訓練能在互聯網帶寬上運行;Psyche 則將這一訓練機制部署在鏈上網絡,使節點可以在本地完成推理、驗證、獎勵評估與權重更新,形成完整的 RL 閉環。

在 Nous 的體系中,Atropos 驗證思維鏈;DisTrO 壓縮訓練通信;Psyche 運行 RL 循環;World Sim 提供複雜環境;Forge 採集真實推理;Hermes 將所有學習寫入權重。強化學習不僅是一個訓練階段,而是 Nous 架構中 連接數據、環境、模型與基礎設施的核心協議,讓 Hermes 成為一個 能在開源算力網絡上持續自我改進的活體系統。

Gradient Network:強化學習架構 Echo

Gradient Network 核心願景是透過「開放智能協議棧」(Open Intelligence Stack)重構 AI 的計算範式。Gradient 的技術棧由一組可獨立演化、又異構協同的核心協議組成。其體系從底層通信到上層智能協作依次包括:Parallax(分散式推理)、Echo(去中心化 RL 訓練)、Lattica(P2P 網絡)、SEDM / Massgen / Symphony / CUAHarm(記憶、協作、安全)、VeriLLM(可信驗證)、Mirage(高保真仿真),共同構成持續演化的去中心化智能基礎設施。

Echo—強化學習訓練架構

Echo 是 Gradient 的強化學習框架,其核心設計理念在於解耦強化學習中的訓練、推理與數據(獎勵)路徑,使 Rollout 生成、策略優化與獎勵評估能在異構環境中獨立擴展與調度。在由推理側與訓練側節點組成的異構網絡中協同運行,以輕量同步機制在廣域異構環境中維持訓練穩定性,有效緩解傳統 DeepSpeed RLHF / VERL 中推理與訓練混跑導致的 SPMD 失效與 GPU 利用率瓶頸。

Echo 採用「推理–訓練雙群架構」實現算力利用最大化,雙群各自獨立運行,互不阻塞:

· 最大化采樣吞吐:推理群 Inference Swarm 由消費級 GPU 與邊緣設備組成,透過 Parallax 以 pipeline‐parallel 構建高吞吐采樣器,專注於軌跡生成;

· 最大化梯度算力:訓練群 Training Swarm 由可運行於中心化集群或全球多地的消費級 GPU 網絡,負責梯度更新、參數同步與 LoRA 微調,專注於學習過程。

為維持策略與數據的一致性,Echo 提供順序(Sequential)與異步(Asynchronous)兩類輕量級同步協議,實現策略權重與軌跡的雙向一致性管理:

· 順序拉取(Pull)模式|精度優先 :訓練側在拉取新軌跡前強制推理節點刷新模型版本,從而確保軌跡新鮮度,適合對策略陳舊高度敏感的任務;

· 異步推拉(Push–Pull)模式|效率優先:推理側持續生成帶版本標籤的軌跡,訓練側依自身節奏消費,協調器監控版本偏差並觸發權重刷新,最大化設備利用率。

在底層,Echo 架構於 Parallax(低帶寬環境下的異構推理)與輕量化分散式訓練組件(如 VERL) 之上,依賴 LoRA 降低跨節點同步成本,使強化學習可在全球異構網絡上穩定運行。

Grail:Bittensor 生態的強化學習

Bittensor 透過其獨特的 Yuma 共識機制,構建了一個巨大的、稀疏的、非平穩的獎勵函數網絡。

Bittensor 生態中的 Covenant AI 則透過 SN3 Templar、SN39 Basilica 與 SN81 Grail 構建了從預訓練到 RL 後訓練的垂直一體化流水線。其中,SN3 Templar 負責基礎模型的預訓練,SN39 Basilica 提供分散式算力市場,SN81 Grail 則作為面向 RL 後訓練的「可驗證推理層」,承載 RLHF / RLAIF 的核心流程,完成從基礎模型到對齊策略的閉環優化。

GRAIL 目標是以密碼學方式證明每條強化學習 rollout 的真實性與模型身份綁定,確保 RLHF 能夠在無需信任的環境中被安全執行。協議通過三層機制建立可信鏈條:

  1. 確定性挑戰生成:利用 drand 隨機信標與區塊哈希生成不可預測但可復現的挑戰任務(如 SAT、GSM8K),杜絕預計算作弊;
  2. 透過 PRF 索引採樣與 sketch commitments,使驗證者以極低成本抽檢 token-level logprob 與推理鏈,確認 rollout 確由聲明模型生成;
  3. 模型身份綁定:將推理過程與模型權重指紋及 token 分布的結構性簽名綁定,確保替換模型或結果重放都會被立即識別。由此,為 RL 中推理軌跡(rollout)提供了真實性根基。

在此機制上,Grail 子網實現了 GRPO 風格的可驗證後訓練流程:礦工為同一題目生成多條推理路徑,驗證者依據正確性、推理鏈質量與 SAT 滿足度評分,並將歸一化結果寫入鏈上,作為 TAO 權重。公開實驗顯示,該框架已將 Qwen2.5-1.5B 的 MATH 準確率從 12.7% 提升至 47.6%,證明其既能防作弊,也能顯著強化模型能力。在 Covenant AI 的訓練棧中,Grail 是去中心化 RLVR/RLAIF 的信任與執行基石,目前尚未正式上線。

Fraction AI:基於競爭的強化學習 RLFC

Fraction AI 的架構明確圍繞競爭強化學習(Reinforcement Learning from Competition, RLFC)和遊戲化數據標註構建,將傳統 RLHF 的靜態獎勵與人工標註取代為開放、動態的競爭環境。代理在不同 Spaces 中對抗,其相對排名與 AI 法官評分共同構成實時獎勵,使對齊過程演變為持續線上的多智能體博弈系統。

傳統 RLHF 與 Fraction AI 的 RLFC 之間的核心差異:

RLFC 的核心價值在於獎勵不再來自單一模型,而來自不斷演化的對手與評估者,避免獎勵模型被利用,並透過策略多樣性防止生態陷入局部最優。Spaces 的結構決定博弈性質(零和或正和),在對抗與協作中推動複雜行為涌現。

在系統架構上,Fraction AI 將訓練過程拆解為四個關鍵組件:

· Agents:基於開源 LLM 的輕量策略單元,透過 QLoRA 以差分權重擴展,低成本更新;

· Spaces:隔離的任務域環境

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)