詳解AI+Web3基礎設施

中級3/29/2024, 7:41:47 PM
AI+Web3 產業的基礎設施層的主要項目基本是以去中心化的計算網路爲主要的敘事,以低成本爲主要優勢,以代幣激勵爲主要方式擴展網路,服務 AI+Web3 客戶爲主要目標。

轉發原文標題:AI+Web3未來發展之路(二):基礎設施篇

基礎設施是AI發展的確定性成長方向

1.爆發增長的AI算力需求

近年來,算力需求快速增長,尤其是在LLM大模型面世後,AI算力需求引爆了高性能算力市場。OpenAI數據顯示,自2012年以來,用於訓練最大AI模型的計算用量呈指數級增長,平均每3-4個月翻倍,其增長速度大大超過了摩爾定律。AI應用的需求增長導致了對計算硬件的需求快速增加,預計到2025年,AI應用對計算硬件的需求將增長約10%到15%。

受AI算力需求影響,GPU硬件廠商英偉達的數據中心收入持續增長,23年Q2的數據中心收入達到 $10.32B,比 23年Q1 增長 141%,比去年同期增長 171%。2024 財年第四季度中數據中心業務佔據83%以上營收,同步增長409%,其中40%用於大模型的推理場景,顯示出對於高性能算力的強大需求。

同時需要海量數據也對存儲和硬件內存提出了要求,尤其是在模型訓練階段,需要大量的參數輸入,需要存儲大量數據。在 AI 服務器中應用的存儲芯片主要包括:高帶寬存儲器 (HBM)、DRAM 和 SSD,針對 AI 服務器的工作場景需要提供更大的容量、更高的性能、更低的延遲和更高的響應速度。根據美光測算, AI 服務器中 DRAM 數量是傳統服務器的 8 倍,NAND 是傳統的 3 倍。

2.供需失衡推動高昂的算力成本

通常來說,算力主要應用在AI模型的訓練、微調和推測階段,尤其是在訓練微調階段,由於更大的數據參數輸入和計算量,同時對並行計算的互聯性要求更高,因此需要更性能、互聯能力更強的GPU硬件,通常是高性能的GPU算力集羣。隨着大模型的發展,計算復雜度也直線上升,使得需要更多高端硬件來滿足模型訓練需求。

以GPT3爲例,按1300萬獨立用戶訪問的情況來說,對應的芯片需求是3萬多片A100GPU。那麼初始投入成本將達到驚人的8億美元,每日模型推理費用預估費用70萬美元。

同時,據行業報道,2023年第四季度,NVIDIA GPU供應量在全球範圍內都被嚴格限制,導致全球市場都出現了明顯的供不應求。英偉達產能受限於臺積電、HBM、CoWos封裝等產能,H100的“嚴重缺貨問題”至少會持續到2024年底。

因此高端GPU的需求上升和供應受阻兩方面推動了當前GPU等硬件的高昂價格,尤其是類似英偉達這種佔據產業鏈底層核心的公司,通過龍頭壟斷還能進一步獲得價值紅利。例如英偉達的H100 AI加速卡的物料成本約爲3000美元,而在2023年中售價已經達到了3.5萬美元左右,甚至在eBay上賣出了超過4w美元的價格。

3.AI基礎設施佔據產業鏈核心價值增長

Grand View Research的報告顯示,全球雲AI市場的規模在2023年估計爲626.3億美元,並預計到2030年將增長到6476億美元,年復合增長率爲39.6%。這一數據反映了雲AI服務的增長潛力及其在整個AI產業鏈中所佔的重要份額。

根據a16z的估算,AIGC市場的大量資金最終流向了基礎設施公司。平均而言,應用程序公司將大約 20-40% 的收入用於推理和針對每個客戶的微調。這通常直接支付給計算實例的雲提供商或第三方模型提供商——反過來,第三方模型提供商將大約一半的收入花在雲基礎設施上。因此,有理由猜測當今AIGC總收入的 10-20% 流向了雲提供商。

同時,更大一部分的算力需求在於大型AI模型的訓練,例如各類LLM大模型,尤其是對於模型初創公司,80-90%的成本都用於AI算力使用。綜合來看,AI計算基礎設施(包括雲計算和硬件)預計佔據市場初期50%以上的價值。

去中心化AI計算

如上文所述,當前中心化AI計算的成本高企,很重要的一個原因是AI訓練對高性能基礎設施的需求增長。但是實際上市場上大量仍然存在大量的算力面臨閒置的問題,出現了一部分的供需錯配。其中主要原因是:

  • 受限於內存,模型復雜度與所需要的GPU數量並不是線性增長關係:當前的GPU具有算力優勢,但是模型訓練需要大量的參數存儲在內存。例如對於GPT-3來說,爲了訓練 1750 億個參數的模型,需要在內存中保存超過 1 TB 的數據——這超過了當今現有的任何 GPU,因此需要更多的GPU進行並行計算和存儲,這又會導致GPU算力的閒置。比如從GPT3到GPT4,模型參數規模增加約10倍,但是所需要的GPU數量增加了24倍(且不考慮模型訓練時間的增長)。據相關分析稱,OpenAI在GPT-4的訓練中使用了大約2.15e25的FLOPS,在大約25000個A100 GPU上進行了90到100天的訓練,其算力利用率約爲32%至36%。

面對以上問題,設計更加符合AI工作的高性能芯片或者專用ASIC芯片是目前很多開發者和大型企業在探索的方向,另一個角度則是綜合利用現有的計算資源,建設分布式算力網路,通過算力的租賃、共享、調度等來降低算力的成本。此外,目前市場有很多閒置的消費級GPU和CPU,單體算力不強,但是在某些場景或者與現有高性能芯片一起配置也能過滿足現有的計算需求,最重要的是供應充足,通過分布式網路調度能夠進一步降低成本。

因此分布式算力成爲了AI基礎設施發展的一個方向。同時因爲Web3與分布式具有相似的概念,去中心化算力網路也是當前Web3+AI基礎設施的主要應用方向。目前市場上的Web3去中心化算力平台普遍能夠提供相比較中心化雲算力低80%-90%的價格。

存儲雖然也爲AI最重要的基礎設施,但存儲對大規模、易用性、低延遲等要求使得目前中心化的存儲具有更大的優勢。而分布式計算網路由於其顯著的成本優勢,則存在更加切實的市場,能夠更大地享受到AI市場爆發帶來的紅利。

  • 模型推理和小模型訓練是當前分布式算力的核心場景。分布式算力由於算力資源的分散,不可避免地增加GPU之間的通信問題,因此會降低算力性能。因此,分布式算力首先更加適合對通信要求少,可以支持並行的場景,例如AI大模型的推理階段,以及參數量比較少的小模型,其受到的性能影響較小。事實上隨着未來AI應用的發展,推理才是應用層的核心需求,大部分公司沒有能力去做大模型的訓練,因此分布式算力仍然具有長期潛力的市場。
  • 爲大規模並行計算設計的高性能分布式訓練框架也不斷湧現。例如Pytorch、Ray、DeepSpeed等創新式的開源分布式計算框架爲開發者使用分布式算力進行模型訓練提供了更強的基礎支持,使得分布式算力在未來AI市場的適用性會更強。

AI+Web3基礎設施項目的敘事邏輯

我們看到,分布式AI基礎設施需求強,且具有長期增長潛力,因此是易於敘事和受到資本青睞的領域。目前AI+Web3產業的基礎設施層的主要項目基本是以去中心化的計算網路爲主要的敘事,以低成本爲主要優勢,以代幣激勵爲主要方式擴展網路,服務AI+Web3客戶爲主要目標。主要包括兩個層面:

1.比較純粹的去中心化雲計算資源的共享和租賃平台:有很多早期的AI項目,例如Render Network、Akash Network等;

  • 算力資源爲主要競爭優勢:核心競爭優勢和資源通常是能夠接觸到大量的算力提供商,快速建立其基礎網路,同時提供易用性強的產品給客戶使用。早期市場中很多做雲算力的公司和礦工會更容易切入這個賽道。
  • 產品門檻較低,上線速度快:對於Render Network、Akash Network這種成熟產品來說,已經可以看到切實增長的數據,具有一定的領先優勢。
  • 新進入者產品同質化:由於目前賽道熱點和此類產品低門檻的特點,最近也進入了一大批做共享算力、算力租賃等敘事的項目,但是產品比較同質化,還需要看到更多的差異化競爭優勢。
  • 偏向於服務簡單計算需求的客戶:例如Render Network主要服務渲染需求,Akash Nerwork的資源提供中CPU更多。簡單的計算資源租賃多數滿足簡單的AI任務需求,無法滿足復雜的AI訓練、微調、推測等全生命週期需求。

2.提供去中心化計算+ML工作流服務:有很多最近獲得高額融資的新興項目,例如Gensyn, io.net, Ritual等;

  • 去中心化計算抬高估值地基。由於算力是AI發展的確定性敘事,因此具有算力基礎的項目通常具有更加穩定和高潛力的商業模式,使得對比純中間層項目具有更高的估值。
  • 中間層服務打出差異化優勢。中間層的服務則是這些算力基礎設施具有競爭優勢的部分,例如服務AI鏈上鏈下計算同步的預言機和驗證器,服務AI整體工作流的部署和管理工具等。AI工作流具有協作性、持續反饋、復雜度高等特點,在流程中的多個環節都需要應用到算力,因此一個更加具有易用性,高協作性,能夠滿足AI開發者復雜需求的中間層基礎設施在當下是具有競爭力的,特別是在Web3領域中需要滿足Web3開發者對於AI的需求。這樣的服務更容易承接到潛在的AI應用市場,而不是僅僅支持簡單的計算需求。
  • 通常需要在ML領域有專業運維經驗的項目團隊。能夠提供上述中間層服務的團隊通常需要對整個ML的工作流程有詳細的了解,才能更好的滿足開發者的全生命週期需求。盡管這類的服務通常會採用到很多現有的開源框架和工具,不一定具有強技術創新,但是仍然需要具有豐富經驗和強大工程能力的團隊,這也是項目的競爭優勢。

通過提供比中心化雲計算服務更優惠的價格,但配套和使用體驗比較相近的服務,這類項目獲得了很多頭部資本的認可,但同時技術復雜度也更高,目前基本在敘事和開發階段,還未有完善上線的產品。

代表項目

1.Render Network

Render Network 是一個基於區塊鏈的全球渲染平台,提供分布式的GPU,爲創作者提供更低成本,更高速的3D渲染服務,在創作者確認過渲染結果後,再由區塊鏈網路向節點發送代幣獎勵。平台提供分布式GPU的調度和分配網路,按照節點的用量情況、聲譽等進行作業的分配,最大化地提高計算的效率,減少資源閒置,降低成本。

Render Network的代幣RNDR是平台中的支付型代幣,創作者可以使用RNDR支付渲染服務,服務商則通過提供算力完成渲染作業而獲得RNDR獎勵。渲染服務的價格會根據當前網路中的用量情況等進行動態調節。

渲染是分布式算力架構運用相對合適且成熟的場景,因爲可以將渲染任務分爲多個子任務高度並行地執行,互相之前不需要過多的通信和交互,所以可以最大化避免分布式算力架構的弊端,同時充分利用廣泛的GPU節點網路,有效降低成本。

因此,Render Network的用戶需求也較爲可觀,自2017年創立以來,Render Network 用戶在網路上渲染了超過1600萬幀和近50萬個場景,且渲染幀數作業和活躍節點數都呈增長的趨勢。此外,Render Network 於2023 Q1 也推出了原生集成Stability AI 工具集,用戶可以的該項功能引入Stable Diffusion作業,業務也不再局限於渲染作業而向AI領域擴展。

2.Gensyn.ai

Gensyn是一個用於深度學習計算的全球性的超級計算集羣網路,基於波卡的L1協議,2023年獲得了由 a16z 領投的4300萬美元A輪融資。

Gensyn的敘事架構中不僅包含了基礎設施的分布式算力集羣,還包括上層的驗證體系,證明在鏈外執行的大規模計算是按照鏈的要求執行的,即用區塊鏈來驗證,從而構建一個無需信任的機器學習網路。

分布式算力方面,Gensyn能夠支持從多餘容量的數據中心到帶有潛在GPU的個人筆記本電腦,它將這些設備連接成一個單一的虛擬集羣,開發者可以隨需訪問和點對點使用。Gensyn將創建一個價格由市場動態決定且向所有參與者開放的市場,可以使 ML 計算的單位成本達到公平均衡。

而驗證體系是Gensyn更重要的概念,它希望網路能夠驗證機器學習任務是否按照請求正確完成,它創新了一種更加高效的驗證方法,包含了概率性學習證明、基於圖的精準定位協議和Truebit式激勵遊戲三大核心技術點,相比傳統區塊鏈中的重復驗證方法更加高效。其網路中的參與者包括提交者、求解者、驗證者和舉報者,來完成整個驗證流程。

按照Gensyn 協議在白皮書中的綜合測試數據來看,目前其顯著優勢是:

  • 能夠降低AI模型訓練的成本:預計 Gensyn 協議上的 NVIDIA V100 等效計算的每小時成本約爲 0.40 美元,比 AWS 按需計算便宜 80%。
  • 更加高效的無需信任的驗證網路:按照白皮書中的測試,Gensyn 協議進行模型訓練的時間開銷,與 Truebit 式復制相比,性能提升了1,350%,與以太坊相比,性能提升了2,522,477%。

但同時,分布式算力相比較本地訓練,由於通訊和網路問題,不可避免地增加了訓練時間,測試數據中,Gensyn 協議爲模型訓練增加了約 46% 的時間開銷。

3.Akash network

Akash network是一個分布式的雲計算平台,結合不同的技術組件,讓用戶可以在去中心化的雲環境中高效、靈活地部署和管理應用程序,簡單地說,它提供用戶租賃分布式計算資源。

Akash的底層是分布在全球的多個基礎設施服務商,提供CPU、GPU、內存、存儲資源,並通過上層的Kubernetes 集羣將資源提供給用戶進行租賃。而用戶可以將應用程序部署爲 Docker 容器,來使用更低成本的基礎設施服務。同時,Akash 採用“反向拍賣”的方式,使得資源價格進一步降低。按照Akash官網的估算,其平台的服務成本比中心化服務器降低約80%以上。

4.io.net

io.net是一個去中心化計算網路,連接全球分布式的GPU,爲AI的模型訓練和推理等提供算力支持。io.net剛剛完成了3000萬美元的A輪融資,估值達到了10億美元。

io.net相比Render、Akash等,是一個更加健全、擴展性更強的去中心化計算網路,接入多個層面的開發者工具,其特點包括:

  • 聚合更多的算力資源:獨立數據中心、加密礦工以及 FIL、Render 等加密項目的 GPU。
  • 核心支持AI需求:核心服務的功能包括批量推理和模型服務、並行訓練、並行超參數調整和強化學習。
  • 更加健全的技術棧以支持更高效的雲環境工作流:包括多種編排工具、ML框架(計算資源的分配、算法的執行以及模型訓練和推理等操作)、數據存儲解決方案、GPU監控和管理工具等。
  • 並行計算能力:集成Ray這一開源的分布式計算框架,擁抱 Ray 的原生並行性,輕鬆並行化 Python 函數,從而實現動態任務執行。其內存存儲確保任務之間的快速數據共享,消除序列化延遲。此外,io.net不僅限於Python,還集成了 PyTorch 和 TensorFlow 等其他領先的 ML 框架,使其擴展性更強。

在價格上,io.net官網預計其價格將比中心化雲計算服務降低約90%。

此外,io.net的代幣IO coin未來主要用於生態內服務的支付和獎勵,或者需求方也可以用類似Helium的模式將IO coin燃燒換成穩定幣“IOSD積分”來進行支付。

聲明:

  1. 本文轉載自[萬向區塊鏈],原文標題“AI+Web3未來發展之路(二):基礎設施篇”,著作權歸屬原作者[萬向區塊鏈],如對轉載有異議,請聯系Gate Learn團隊,團隊會根據相關流程盡速處理。

  2. 免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。

  3. 文章其他語言版本由Gate Learn團隊翻譯, 在未提及Gate.io的情況下不得復制、傳播或抄襲經翻譯文章。

詳解AI+Web3基礎設施

中級3/29/2024, 7:41:47 PM
AI+Web3 產業的基礎設施層的主要項目基本是以去中心化的計算網路爲主要的敘事,以低成本爲主要優勢,以代幣激勵爲主要方式擴展網路,服務 AI+Web3 客戶爲主要目標。

轉發原文標題:AI+Web3未來發展之路(二):基礎設施篇

基礎設施是AI發展的確定性成長方向

1.爆發增長的AI算力需求

近年來,算力需求快速增長,尤其是在LLM大模型面世後,AI算力需求引爆了高性能算力市場。OpenAI數據顯示,自2012年以來,用於訓練最大AI模型的計算用量呈指數級增長,平均每3-4個月翻倍,其增長速度大大超過了摩爾定律。AI應用的需求增長導致了對計算硬件的需求快速增加,預計到2025年,AI應用對計算硬件的需求將增長約10%到15%。

受AI算力需求影響,GPU硬件廠商英偉達的數據中心收入持續增長,23年Q2的數據中心收入達到 $10.32B,比 23年Q1 增長 141%,比去年同期增長 171%。2024 財年第四季度中數據中心業務佔據83%以上營收,同步增長409%,其中40%用於大模型的推理場景,顯示出對於高性能算力的強大需求。

同時需要海量數據也對存儲和硬件內存提出了要求,尤其是在模型訓練階段,需要大量的參數輸入,需要存儲大量數據。在 AI 服務器中應用的存儲芯片主要包括:高帶寬存儲器 (HBM)、DRAM 和 SSD,針對 AI 服務器的工作場景需要提供更大的容量、更高的性能、更低的延遲和更高的響應速度。根據美光測算, AI 服務器中 DRAM 數量是傳統服務器的 8 倍,NAND 是傳統的 3 倍。

2.供需失衡推動高昂的算力成本

通常來說,算力主要應用在AI模型的訓練、微調和推測階段,尤其是在訓練微調階段,由於更大的數據參數輸入和計算量,同時對並行計算的互聯性要求更高,因此需要更性能、互聯能力更強的GPU硬件,通常是高性能的GPU算力集羣。隨着大模型的發展,計算復雜度也直線上升,使得需要更多高端硬件來滿足模型訓練需求。

以GPT3爲例,按1300萬獨立用戶訪問的情況來說,對應的芯片需求是3萬多片A100GPU。那麼初始投入成本將達到驚人的8億美元,每日模型推理費用預估費用70萬美元。

同時,據行業報道,2023年第四季度,NVIDIA GPU供應量在全球範圍內都被嚴格限制,導致全球市場都出現了明顯的供不應求。英偉達產能受限於臺積電、HBM、CoWos封裝等產能,H100的“嚴重缺貨問題”至少會持續到2024年底。

因此高端GPU的需求上升和供應受阻兩方面推動了當前GPU等硬件的高昂價格,尤其是類似英偉達這種佔據產業鏈底層核心的公司,通過龍頭壟斷還能進一步獲得價值紅利。例如英偉達的H100 AI加速卡的物料成本約爲3000美元,而在2023年中售價已經達到了3.5萬美元左右,甚至在eBay上賣出了超過4w美元的價格。

3.AI基礎設施佔據產業鏈核心價值增長

Grand View Research的報告顯示,全球雲AI市場的規模在2023年估計爲626.3億美元,並預計到2030年將增長到6476億美元,年復合增長率爲39.6%。這一數據反映了雲AI服務的增長潛力及其在整個AI產業鏈中所佔的重要份額。

根據a16z的估算,AIGC市場的大量資金最終流向了基礎設施公司。平均而言,應用程序公司將大約 20-40% 的收入用於推理和針對每個客戶的微調。這通常直接支付給計算實例的雲提供商或第三方模型提供商——反過來,第三方模型提供商將大約一半的收入花在雲基礎設施上。因此,有理由猜測當今AIGC總收入的 10-20% 流向了雲提供商。

同時,更大一部分的算力需求在於大型AI模型的訓練,例如各類LLM大模型,尤其是對於模型初創公司,80-90%的成本都用於AI算力使用。綜合來看,AI計算基礎設施(包括雲計算和硬件)預計佔據市場初期50%以上的價值。

去中心化AI計算

如上文所述,當前中心化AI計算的成本高企,很重要的一個原因是AI訓練對高性能基礎設施的需求增長。但是實際上市場上大量仍然存在大量的算力面臨閒置的問題,出現了一部分的供需錯配。其中主要原因是:

  • 受限於內存,模型復雜度與所需要的GPU數量並不是線性增長關係:當前的GPU具有算力優勢,但是模型訓練需要大量的參數存儲在內存。例如對於GPT-3來說,爲了訓練 1750 億個參數的模型,需要在內存中保存超過 1 TB 的數據——這超過了當今現有的任何 GPU,因此需要更多的GPU進行並行計算和存儲,這又會導致GPU算力的閒置。比如從GPT3到GPT4,模型參數規模增加約10倍,但是所需要的GPU數量增加了24倍(且不考慮模型訓練時間的增長)。據相關分析稱,OpenAI在GPT-4的訓練中使用了大約2.15e25的FLOPS,在大約25000個A100 GPU上進行了90到100天的訓練,其算力利用率約爲32%至36%。

面對以上問題,設計更加符合AI工作的高性能芯片或者專用ASIC芯片是目前很多開發者和大型企業在探索的方向,另一個角度則是綜合利用現有的計算資源,建設分布式算力網路,通過算力的租賃、共享、調度等來降低算力的成本。此外,目前市場有很多閒置的消費級GPU和CPU,單體算力不強,但是在某些場景或者與現有高性能芯片一起配置也能過滿足現有的計算需求,最重要的是供應充足,通過分布式網路調度能夠進一步降低成本。

因此分布式算力成爲了AI基礎設施發展的一個方向。同時因爲Web3與分布式具有相似的概念,去中心化算力網路也是當前Web3+AI基礎設施的主要應用方向。目前市場上的Web3去中心化算力平台普遍能夠提供相比較中心化雲算力低80%-90%的價格。

存儲雖然也爲AI最重要的基礎設施,但存儲對大規模、易用性、低延遲等要求使得目前中心化的存儲具有更大的優勢。而分布式計算網路由於其顯著的成本優勢,則存在更加切實的市場,能夠更大地享受到AI市場爆發帶來的紅利。

  • 模型推理和小模型訓練是當前分布式算力的核心場景。分布式算力由於算力資源的分散,不可避免地增加GPU之間的通信問題,因此會降低算力性能。因此,分布式算力首先更加適合對通信要求少,可以支持並行的場景,例如AI大模型的推理階段,以及參數量比較少的小模型,其受到的性能影響較小。事實上隨着未來AI應用的發展,推理才是應用層的核心需求,大部分公司沒有能力去做大模型的訓練,因此分布式算力仍然具有長期潛力的市場。
  • 爲大規模並行計算設計的高性能分布式訓練框架也不斷湧現。例如Pytorch、Ray、DeepSpeed等創新式的開源分布式計算框架爲開發者使用分布式算力進行模型訓練提供了更強的基礎支持,使得分布式算力在未來AI市場的適用性會更強。

AI+Web3基礎設施項目的敘事邏輯

我們看到,分布式AI基礎設施需求強,且具有長期增長潛力,因此是易於敘事和受到資本青睞的領域。目前AI+Web3產業的基礎設施層的主要項目基本是以去中心化的計算網路爲主要的敘事,以低成本爲主要優勢,以代幣激勵爲主要方式擴展網路,服務AI+Web3客戶爲主要目標。主要包括兩個層面:

1.比較純粹的去中心化雲計算資源的共享和租賃平台:有很多早期的AI項目,例如Render Network、Akash Network等;

  • 算力資源爲主要競爭優勢:核心競爭優勢和資源通常是能夠接觸到大量的算力提供商,快速建立其基礎網路,同時提供易用性強的產品給客戶使用。早期市場中很多做雲算力的公司和礦工會更容易切入這個賽道。
  • 產品門檻較低,上線速度快:對於Render Network、Akash Network這種成熟產品來說,已經可以看到切實增長的數據,具有一定的領先優勢。
  • 新進入者產品同質化:由於目前賽道熱點和此類產品低門檻的特點,最近也進入了一大批做共享算力、算力租賃等敘事的項目,但是產品比較同質化,還需要看到更多的差異化競爭優勢。
  • 偏向於服務簡單計算需求的客戶:例如Render Network主要服務渲染需求,Akash Nerwork的資源提供中CPU更多。簡單的計算資源租賃多數滿足簡單的AI任務需求,無法滿足復雜的AI訓練、微調、推測等全生命週期需求。

2.提供去中心化計算+ML工作流服務:有很多最近獲得高額融資的新興項目,例如Gensyn, io.net, Ritual等;

  • 去中心化計算抬高估值地基。由於算力是AI發展的確定性敘事,因此具有算力基礎的項目通常具有更加穩定和高潛力的商業模式,使得對比純中間層項目具有更高的估值。
  • 中間層服務打出差異化優勢。中間層的服務則是這些算力基礎設施具有競爭優勢的部分,例如服務AI鏈上鏈下計算同步的預言機和驗證器,服務AI整體工作流的部署和管理工具等。AI工作流具有協作性、持續反饋、復雜度高等特點,在流程中的多個環節都需要應用到算力,因此一個更加具有易用性,高協作性,能夠滿足AI開發者復雜需求的中間層基礎設施在當下是具有競爭力的,特別是在Web3領域中需要滿足Web3開發者對於AI的需求。這樣的服務更容易承接到潛在的AI應用市場,而不是僅僅支持簡單的計算需求。
  • 通常需要在ML領域有專業運維經驗的項目團隊。能夠提供上述中間層服務的團隊通常需要對整個ML的工作流程有詳細的了解,才能更好的滿足開發者的全生命週期需求。盡管這類的服務通常會採用到很多現有的開源框架和工具,不一定具有強技術創新,但是仍然需要具有豐富經驗和強大工程能力的團隊,這也是項目的競爭優勢。

通過提供比中心化雲計算服務更優惠的價格,但配套和使用體驗比較相近的服務,這類項目獲得了很多頭部資本的認可,但同時技術復雜度也更高,目前基本在敘事和開發階段,還未有完善上線的產品。

代表項目

1.Render Network

Render Network 是一個基於區塊鏈的全球渲染平台,提供分布式的GPU,爲創作者提供更低成本,更高速的3D渲染服務,在創作者確認過渲染結果後,再由區塊鏈網路向節點發送代幣獎勵。平台提供分布式GPU的調度和分配網路,按照節點的用量情況、聲譽等進行作業的分配,最大化地提高計算的效率,減少資源閒置,降低成本。

Render Network的代幣RNDR是平台中的支付型代幣,創作者可以使用RNDR支付渲染服務,服務商則通過提供算力完成渲染作業而獲得RNDR獎勵。渲染服務的價格會根據當前網路中的用量情況等進行動態調節。

渲染是分布式算力架構運用相對合適且成熟的場景,因爲可以將渲染任務分爲多個子任務高度並行地執行,互相之前不需要過多的通信和交互,所以可以最大化避免分布式算力架構的弊端,同時充分利用廣泛的GPU節點網路,有效降低成本。

因此,Render Network的用戶需求也較爲可觀,自2017年創立以來,Render Network 用戶在網路上渲染了超過1600萬幀和近50萬個場景,且渲染幀數作業和活躍節點數都呈增長的趨勢。此外,Render Network 於2023 Q1 也推出了原生集成Stability AI 工具集,用戶可以的該項功能引入Stable Diffusion作業,業務也不再局限於渲染作業而向AI領域擴展。

2.Gensyn.ai

Gensyn是一個用於深度學習計算的全球性的超級計算集羣網路,基於波卡的L1協議,2023年獲得了由 a16z 領投的4300萬美元A輪融資。

Gensyn的敘事架構中不僅包含了基礎設施的分布式算力集羣,還包括上層的驗證體系,證明在鏈外執行的大規模計算是按照鏈的要求執行的,即用區塊鏈來驗證,從而構建一個無需信任的機器學習網路。

分布式算力方面,Gensyn能夠支持從多餘容量的數據中心到帶有潛在GPU的個人筆記本電腦,它將這些設備連接成一個單一的虛擬集羣,開發者可以隨需訪問和點對點使用。Gensyn將創建一個價格由市場動態決定且向所有參與者開放的市場,可以使 ML 計算的單位成本達到公平均衡。

而驗證體系是Gensyn更重要的概念,它希望網路能夠驗證機器學習任務是否按照請求正確完成,它創新了一種更加高效的驗證方法,包含了概率性學習證明、基於圖的精準定位協議和Truebit式激勵遊戲三大核心技術點,相比傳統區塊鏈中的重復驗證方法更加高效。其網路中的參與者包括提交者、求解者、驗證者和舉報者,來完成整個驗證流程。

按照Gensyn 協議在白皮書中的綜合測試數據來看,目前其顯著優勢是:

  • 能夠降低AI模型訓練的成本:預計 Gensyn 協議上的 NVIDIA V100 等效計算的每小時成本約爲 0.40 美元,比 AWS 按需計算便宜 80%。
  • 更加高效的無需信任的驗證網路:按照白皮書中的測試,Gensyn 協議進行模型訓練的時間開銷,與 Truebit 式復制相比,性能提升了1,350%,與以太坊相比,性能提升了2,522,477%。

但同時,分布式算力相比較本地訓練,由於通訊和網路問題,不可避免地增加了訓練時間,測試數據中,Gensyn 協議爲模型訓練增加了約 46% 的時間開銷。

3.Akash network

Akash network是一個分布式的雲計算平台,結合不同的技術組件,讓用戶可以在去中心化的雲環境中高效、靈活地部署和管理應用程序,簡單地說,它提供用戶租賃分布式計算資源。

Akash的底層是分布在全球的多個基礎設施服務商,提供CPU、GPU、內存、存儲資源,並通過上層的Kubernetes 集羣將資源提供給用戶進行租賃。而用戶可以將應用程序部署爲 Docker 容器,來使用更低成本的基礎設施服務。同時,Akash 採用“反向拍賣”的方式,使得資源價格進一步降低。按照Akash官網的估算,其平台的服務成本比中心化服務器降低約80%以上。

4.io.net

io.net是一個去中心化計算網路,連接全球分布式的GPU,爲AI的模型訓練和推理等提供算力支持。io.net剛剛完成了3000萬美元的A輪融資,估值達到了10億美元。

io.net相比Render、Akash等,是一個更加健全、擴展性更強的去中心化計算網路,接入多個層面的開發者工具,其特點包括:

  • 聚合更多的算力資源:獨立數據中心、加密礦工以及 FIL、Render 等加密項目的 GPU。
  • 核心支持AI需求:核心服務的功能包括批量推理和模型服務、並行訓練、並行超參數調整和強化學習。
  • 更加健全的技術棧以支持更高效的雲環境工作流:包括多種編排工具、ML框架(計算資源的分配、算法的執行以及模型訓練和推理等操作)、數據存儲解決方案、GPU監控和管理工具等。
  • 並行計算能力:集成Ray這一開源的分布式計算框架,擁抱 Ray 的原生並行性,輕鬆並行化 Python 函數,從而實現動態任務執行。其內存存儲確保任務之間的快速數據共享,消除序列化延遲。此外,io.net不僅限於Python,還集成了 PyTorch 和 TensorFlow 等其他領先的 ML 框架,使其擴展性更強。

在價格上,io.net官網預計其價格將比中心化雲計算服務降低約90%。

此外,io.net的代幣IO coin未來主要用於生態內服務的支付和獎勵,或者需求方也可以用類似Helium的模式將IO coin燃燒換成穩定幣“IOSD積分”來進行支付。

聲明:

  1. 本文轉載自[萬向區塊鏈],原文標題“AI+Web3未來發展之路(二):基礎設施篇”,著作權歸屬原作者[萬向區塊鏈],如對轉載有異議,請聯系Gate Learn團隊,團隊會根據相關流程盡速處理。

  2. 免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。

  3. 文章其他語言版本由Gate Learn團隊翻譯, 在未提及Gate.io的情況下不得復制、傳播或抄襲經翻譯文章。

Mulai Sekarang
Daftar dan dapatkan Voucher
$100
!