AI+Web3协同：解锁数据与算力新格局

TxFailed · 2025-07-21T00:20:04+00:00

# AI+Web3：塔楼与广场## 要点1. AI概念的Web3项目在一二级市场成为吸金标的。2. Web3在AI行业的机会体现在：利用分布式激励协调长尾中的潜在供应，涉及数据、存储和计算；同时，建立开源模型以及AI Agent的去中心化市场。3. AI在Web3行业主要应用于链上金融（加密支付、交易、数据分析）以及辅助开发。4. AI+Web3的效用体现在两者的互补：Web3有望对抗AI集中化，AI有望帮助Web3破圈。![AI+Web3：塔楼与广场](https://img-cdn.gateio.im/social/moments-25bce79fdc74e866d6663cf31b15ee55)## 引言近两年，AI的发展呈现加速态势。由Chatgpt引发的生成式人工智能浪潮，也在Web3领域掀起了巨大波澜。在AI概念的加持下，加密市场融资明显提振。据统计，2024上半年就有64个Web3+AI项目完成融资，其中基于人工智能的操作系统Zyber365在A轮实现1亿美元的最高融资额。二级市场更为繁荣，加密聚合网站Coingecko数据显示，短短一年多时间，AI赛道总市值已达485亿美元，24小时交易量接近86亿美元。主流AI技术进展带来明显利好，OpenAI的Sora文本转视频模型发布后，AI板块平均价格上涨151%。AI效应同样辐射至加密货币吸金板块之一Meme：首个AI Agent概念的MemeCoin GOAT迅速走红并获14亿美金估值，成功掀起AI Meme热潮。关于AI+Web3的研究和话题同样火热，从AI+Depin到AI Memecoin再到当前的AI Agent和AI DAO，新叙事轮换速度让FOMO情绪难以跟上。AI+Web3这个充满热钱、风口和未来幻想的术语组合，难免被视作一场被资本撮合的包办婚姻。我们很难分辨在这华丽外表之下，到底是投机者的主场，还是黎明爆发的前夜？要回答这个问题，关键在于思考：有对方它会变得更好吗？是否能从对方的模式中受益？本文试图站在前人肩膀上审视这一格局：Web3如何能在AI技术堆栈各环节发挥作用，AI又能给Web3带来什么新的生机？## AI堆栈下Web3的机会在展开这个话题前，我们需要了解AI大模型的技术堆栈：大模型就像人类大脑，早期阶段如同刚降生的婴儿，需要观察摄入海量外界信息去理解世界，这是数据"收集"阶段。由于计算机不具备人类多感官，训练前需要通过"预处理"将无标注信息转化为计算机可理解的格式。输入数据后AI通过"训练"构建具有理解和预测能力的模型，类似婴儿逐渐理解学习外界的过程，模型参数如同婴儿不断调整的语言能力。学习内容分科或与人交流获得反馈并修正，进入"微调"环节。孩童长大学会说话后，能在新对话中理解意思并表达感受和想法，类似AI大模型的"推理"，模型能对新的语言和文本输入进行预测分析。婴儿通过语言能力表达感受、描述物体和解决问题，类似AI大模型完成训练后在推理阶段应用于各类特定任务，如图像分类、语音识别等。AI Agent则更接近大模型的下一形态——能独立执行任务并追求复杂目标，不仅具备思考能力，还能记忆、规划，且能运用工具与世界互动。针对AI各堆栈的痛点，Web3目前初步形成了多层次、互连的生态系统，涵盖AI模型流程各阶段。![AI+Web3：塔楼与广场](https://img-cdn.gateio.im/social/moments-cc3bf45e321f9b1d1280bf3bb827d9f4)### 基础层：算力与数据的Airbnb#### 算力当前，AI的最高成本之一是训练模型与推理模型所需的算力与能源。例如，Meta的LLAMA3需要16000个NVIDIA H100GPU 30天才能完成训练。H100 80GB版单价3-4万美元，这需要4-7亿美元计算硬件投资（GPU+网络芯片），每月训练消耗16亿千瓦时，能源支出近2000万美元。对AI算力的解压，也是Web3最早与AI交叉的领域——DePin（去中心化物理基础设施网络）。DePin Ninja数据网站已列出1400多个项目，GPU算力共享代表项目包括io.net、Aethir、Akash、Render Network等。主要逻辑是：平台允许闲置GPU资源拥有者以无需许可的去中心化方式贡献计算能力，通过类Uber或Airbnb的在线市场，提高未充分利用的GPU资源使用率，终端用户获得更低成本的高效计算资源；同时，质押机制确保资源提供者违反质量控制或中断网络时有相应惩罚。特点包括：- 聚集闲置GPU资源：供应方主要为第三方独立中小型数据中心、加密矿场等运营商过剩算力资源、PoS共识机制的挖矿硬件，如FileCoin与ETH矿机。部分项目致力于启动门槛更低的设备，如exolab利用MacBook、iPhone、iPad等本地设备建立运行大模型推理的算力网络。- 面向AI算力的长尾市场： a. 技术端：去中心化算力市场更适合推理步骤。训练更依赖超大集群规模GPU的数据处理能力，而推理对GPU运算性能要求相对较低，如Aethir专注低延迟渲染工作和AI推理应用。 b. 需求端：中小算力需求方不会单独训练自己的大模型，而只是选择围绕少数头部大模型进行优化、微调，这些场景天然适合分布式闲置算力资源。- 去中心化所有权：区块链技术意义在于资源所有者始终保留对资源的控制权，可根据需求灵活调整，同时获得收益。#### 数据数据是AI的地基。没有数据，计算如浮萍般毫无用处。数据与模型关系如"Garbage in, Garbage out"俗谚，数据量与输入质量决定最终模型输出质量。对当前AI模型训练而言，数据决定了模型的语言能力、理解能力、甚至价值观以及人性化表现。目前，AI的数据需求困境主要集中在以下四方面：- 数据饥渴：AI模型训练依赖海量数据输入。公开资料显示，OpenAI训练GPT-4的参数量达万亿级别。- 数据质量：随着AI与各行业结合，数据时效性、多样性、垂类数据专业性、新兴数据源如社交媒体情绪摄入对其质量提出新要求。- 隐私与合规问题：各国家、企业逐渐注意到优质数据集重要性，正在对数据集爬取进行限制。- 数据处理成本高昂：数据量大，处理过程复杂。公开资料显示，AI公司超30%研发成本用于基础数据采集、处理。目前，web3的解决方案体现在以下四个方面：1. 数据收集：免费提供的真实世界数据正迅速耗尽，AI公司为数据付费支出逐年升高。但这份支出并未反哺给数据真正贡献者，平台全然享受了数据带来的价值创造，如Reddit通过与AI公司签订数据授权协议实现合计2.03亿美元收入。让真正贡献的用户同样参与数据带来的价值创造，以及通过分布式网络与激励机制，以低成本方式获取用户更私人、更具价值的数据，是Web3的愿景。- Grass是去中心化数据层和网络，用户可通过运行Grass节点，贡献闲置带宽和中继流量用以捕获整个互联网中的实时数据，并获取代币奖励。- Vana引入独特的数据流动性池（DLP）概念，用户可将私人数据（如购物记录、浏览习惯、社交媒体活动等）上传至特定DLP，并灵活选择是否授权给特定第三方使用。- 在PublicAI中，用户可在X上使用#AI或#Web3作为分类标签并@PublicAI即可实现数据收集。2. 数据预处理：AI数据处理过程中，由于收集的数据通常嘈杂且包含错误，必须在训练模型前清理并转换为可用格式，涉及标准化、过滤和处理缺失值的重复任务。此阶段是AI行业为数不多的人工环节，已衍生出数据标注师这一行业，随着模型对数据质量要求提高，数据标注师门槛也随之提升，而这一任务天然适合Web3的去中心化激励机制。- Grass与OpenLayer都正考虑加入数据标注这一关键环节。- Synesis提出"Train2earn"概念，强调数据质量，用户可通过提供标注数据、注释或其他形式输入获得奖励。- 数据标注项目Sapien将标记任务游戏化，并让用户质押积分以赚取更多积分。3. 数据隐私与安全：需厘清数据隐私与安全是两个不同概念。数据隐私涉及敏感数据处理，数据安全则保护数据信息免遭未经授权的访问、破坏和盗窃。由此，Web3隐私技术优势和潜在应用场景体现在两方面：(1)敏感数据训练；(2)数据协作：多个数据所有者可共同参与AI训练，而无需共享原始数据。当前Web3较普遍的隐私技术包括：- 可信执行环境(TEE)，例如Super Protocol。- 完全同态加密（FHE)，例如BasedAI、Fhenix.io或Inco Network。- 零知识技术（zk），如Reclaim Protocol使用zkTLS技术，生成HTTPS流量的零知识证明，允许用户从外部网站安全导入活动、声誉和身份数据，而无需暴露敏感信息。不过，目前该领域仍处早期阶段，大部分项目仍在探索中，当前困境是计算成本太高，例如：- zkML框架EZKL需约80分钟才能生成1M-nanoGPT模型的证明。- 根据Modulus Labs数据，zkML开销比纯计算高出1000倍以上。4. 数据存储：有了数据后，还需要一个地方在链上存储数据，以及使用该数据生成的LLM。以数据可用性（DA）为核心问题，在以太坊Danksharding升级之前，其吞吐量为0.08MB。同时，AI模型训练和实时推理通常需要每秒50到100GB的数据吞吐量。这种数量级差距，让现有链上解决方案在面对"资源密集型AI应用时"力不从心。- 0g.AI是这类别的代表项目。它是针对AI高性能需求设计的中心化存储解决方案，关键特性包括：高性能与扩展性，通过高级分片（Sharding）和纠删码（Erasure Coding）技术，支持快速上传和下载大规模数据集，数据传输速度接近每秒5GB。### 中间件：模型的训练与推理#### 开源模型去中心化市场有关AI模型闭源还是开源的争论从未消失。开源带来的集体创新是闭源模型无法比拟的优势，然而在毫无盈利模式前提下，开源模型如何提高开发者驱动力？是值得思考的方向，百度创始人李彦宏曾在今年4月断言，"开源模型会越来越落后。"对此，Web3提出一个去中心化开源模型市场的可能性，即对模型本身进行代币化，为团队保留一定比例代币，并将该模型部分未来收入流向代币持有者。- Bittensor协议建立开源模型的P2P市场，由数十个"子网"组成，资源提供者（计算、数据收集/存储、机器学习人才）相互竞争，以满足特定子网所有者目标，各子网可交互并相互学习，实现更强大智能。奖励由社区投票分配，并根据竞争表现进一步分配

TxFailed

2025-07-21 00:20:04

AI+Web3：塔楼与广场

要点

AI概念的Web3项目在一二级市场成为吸金标的。
Web3在AI行业的机会体现在：利用分布式激励协调长尾中的潜在供应，涉及数据、存储和计算；同时，建立开源模型以及AI Agent的去中心化市场。
AI在Web3行业主要应用于链上金融（加密支付、交易、数据分析）以及辅助开发。
AI+Web3的效用体现在两者的互补：Web3有望对抗AI集中化，AI有望帮助Web3破圈。

引言

近两年，AI的发展呈现加速态势。由Chatgpt引发的生成式人工智能浪潮，也在Web3领域掀起了巨大波澜。

在AI概念的加持下，加密市场融资明显提振。据统计，2024上半年就有64个Web3+AI项目完成融资，其中基于人工智能的操作系统Zyber365在A轮实现1亿美元的最高融资额。

二级市场更为繁荣，加密聚合网站Coingecko数据显示，短短一年多时间，AI赛道总市值已达485亿美元，24小时交易量接近86亿美元。主流AI技术进展带来明显利好，OpenAI的Sora文本转视频模型发布后，AI板块平均价格上涨151%。AI效应同样辐射至加密货币吸金板块之一Meme：首个AI Agent概念的MemeCoin GOAT迅速走红并获14亿美金估值，成功掀起AI Meme热潮。

关于AI+Web3的研究和话题同样火热，从AI+Depin到AI Memecoin再到当前的AI Agent和AI DAO，新叙事轮换速度让FOMO情绪难以跟上。

AI+Web3这个充满热钱、风口和未来幻想的术语组合，难免被视作一场被资本撮合的包办婚姻。我们很难分辨在这华丽外表之下，到底是投机者的主场，还是黎明爆发的前夜？

要回答这个问题，关键在于思考：有对方它会变得更好吗？是否能从对方的模式中受益？本文试图站在前人肩膀上审视这一格局：Web3如何能在AI技术堆栈各环节发挥作用，AI又能给Web3带来什么新的生机？

AI堆栈下Web3的机会

在展开这个话题前，我们需要了解AI大模型的技术堆栈：

大模型就像人类大脑，早期阶段如同刚降生的婴儿，需要观察摄入海量外界信息去理解世界，这是数据"收集"阶段。由于计算机不具备人类多感官，训练前需要通过"预处理"将无标注信息转化为计算机可理解的格式。

输入数据后AI通过"训练"构建具有理解和预测能力的模型，类似婴儿逐渐理解学习外界的过程，模型参数如同婴儿不断调整的语言能力。学习内容分科或与人交流获得反馈并修正，进入"微调"环节。

孩童长大学会说话后，能在新对话中理解意思并表达感受和想法，类似AI大模型的"推理"，模型能对新的语言和文本输入进行预测分析。婴儿通过语言能力表达感受、描述物体和解决问题，类似AI大模型完成训练后在推理阶段应用于各类特定任务，如图像分类、语音识别等。

AI Agent则更接近大模型的下一形态——能独立执行任务并追求复杂目标，不仅具备思考能力，还能记忆、规划，且能运用工具与世界互动。

针对AI各堆栈的痛点，Web3目前初步形成了多层次、互连的生态系统，涵盖AI模型流程各阶段。

基础层：算力与数据的Airbnb

算力

当前，AI的最高成本之一是训练模型与推理模型所需的算力与能源。

例如，Meta的LLAMA3需要16000个NVIDIA H100GPU 30天才能完成训练。H100 80GB版单价3-4万美元，这需要4-7亿美元计算硬件投资（GPU+网络芯片），每月训练消耗16亿千瓦时，能源支出近2000万美元。

对AI算力的解压，也是Web3最早与AI交叉的领域——DePin（去中心化物理基础设施网络）。DePin Ninja数据网站已列出1400多个项目，GPU算力共享代表项目包括io.net、Aethir、Akash、Render Network等。

主要逻辑是：平台允许闲置GPU资源拥有者以无需许可的去中心化方式贡献计算能力，通过类Uber或Airbnb的在线市场，提高未充分利用的GPU资源使用率，终端用户获得更低成本的高效计算资源；同时，质押机制确保资源提供者违反质量控制或中断网络时有相应惩罚。

特点包括：

聚集闲置GPU资源：供应方主要为第三方独立中小型数据中心、加密矿场等运营商过剩算力资源、PoS共识机制的挖矿硬件，如FileCoin与ETH矿机。部分项目致力于启动门槛更低的设备，如exolab利用MacBook、iPhone、iPad等本地设备建立运行大模型推理的算力网络。
面向AI算力的长尾市场： a. 技术端：去中心化算力市场更适合推理步骤。训练更依赖超大集群规模GPU的数据处理能力，而推理对GPU运算性能要求相对较低，如Aethir专注低延迟渲染工作和AI推理应用。 b. 需求端：中小算力需求方不会单独训练自己的大模型，而只是选择围绕少数头部大模型进行优化、微调，这些场景天然适合分布式闲置算力资源。
去中心化所有权：区块链技术意义在于资源所有者始终保留对资源的控制权，可根据需求灵活调整，同时获得收益。

数据

数据是AI的地基。没有数据，计算如浮萍般毫无用处。数据与模型关系如"Garbage in, Garbage out"俗谚，数据量与输入质量决定最终模型输出质量。对当前AI模型训练而言，数据决定了模型的语言能力、理解能力、甚至价值观以及人性化表现。目前，AI的数据需求困境主要集中在以下四方面：

数据饥渴：AI模型训练依赖海量数据输入。公开资料显示，OpenAI训练GPT-4的参数量达万亿级别。
数据质量：随着AI与各行业结合，数据时效性、多样性、垂类数据专业性、新兴数据源如社交媒体情绪摄入对其质量提出新要求。
隐私与合规问题：各国家、企业逐渐注意到优质数据集重要性，正在对数据集爬取进行限制。
数据处理成本高昂：数据量大，处理过程复杂。公开资料显示，AI公司超30%研发成本用于基础数据采集、处理。

目前，web3的解决方案体现在以下四个方面：

数据收集：免费提供的真实世界数据正迅速耗尽，AI公司为数据付费支出逐年升高。但这份支出并未反哺给数据真正贡献者，平台全然享受了数据带来的价值创造，如Reddit通过与AI公司签订数据授权协议实现合计2.03亿美元收入。

让真正贡献的用户同样参与数据带来的价值创造，以及通过分布式网络与激励机制，以低成本方式获取用户更私人、更具价值的数据，是Web3的愿景。

Grass是去中心化数据层和网络，用户可通过运行Grass节点，贡献闲置带宽和中继流量用以捕获整个互联网中的实时数据，并获取代币奖励。
Vana引入独特的数据流动性池（DLP）概念，用户可将私人数据（如购物记录、浏览习惯、社交媒体活动等）上传至特定DLP，并灵活选择是否授权给特定第三方使用。
在PublicAI中，用户可在X上使用#AI或#Web3作为分类标签并@PublicAI即可实现数据收集。

数据预处理：AI数据处理过程中，由于收集的数据通常嘈杂且包含错误，必须在训练模型前清理并转换为可用格式，涉及标准化、过滤和处理缺失值的重复任务。此阶段是AI行业为数不多的人工环节，已衍生出数据标注师这一行业，随着模型对数据质量要求提高，数据标注师门槛也随之提升，而这一任务天然适合Web3的去中心化激励机制。

Grass与OpenLayer都正考虑加入数据标注这一关键环节。
Synesis提出"Train2earn"概念，强调数据质量，用户可通过提供标注数据、注释或其他形式输入获得奖励。
数据标注项目Sapien将标记任务游戏化，并让用户质押积分以赚取更多积分。

数据隐私与安全：需厘清数据隐私与安全是两个不同概念。数据隐私涉及敏感数据处理，数据安全则保护数据信息免遭未经授权的访问、破坏和盗窃。由此，Web3隐私技术优势和潜在应用场景体现在两方面：(1)敏感数据训练；(2)数据协作：多个数据所有者可共同参与AI训练，而无需共享原始数据。

当前Web3较普遍的隐私技术包括：

可信执行环境(TEE)，例如Super Protocol。
完全同态加密（FHE)，例如BasedAI、Fhenix.io或Inco Network。
零知识技术（zk），如Reclaim Protocol使用zkTLS技术，生成HTTPS流量的零知识证明，允许用户从外部网站安全导入活动、声誉和身份数据，而无需暴露敏感信息。

不过，目前该领域仍处早期阶段，大部分项目仍在探索中，当前困境是计算成本太高，例如：

zkML框架EZKL需约80分钟才能生成1M-nanoGPT模型的证明。
根据Modulus Labs数据，zkML开销比纯计算高出1000倍以上。

数据存储：有了数据后，还需要一个地方在链上存储数据，以及使用该数据生成的LLM。以数据可用性（DA）为核心问题，在以太坊Danksharding升级之前，其吞吐量为0.08MB。同时，AI模型训练和实时推理通常需要每秒50到100GB的数据吞吐量。这种数量级差距，让现有链上解决方案在面对"资源密集型AI应用时"力不从心。