轉發原文標題:AI+Web3未來發展之路(二):基礎設施篇
近年來,算力需求快速增長,尤其是在LLM大模型面世後,AI算力需求引爆了高性能算力市場。OpenAI數據顯示,自2012年以來,用於訓練最大AI模型的計算用量呈指數級增長,平均每3-4個月翻倍,其增長速度大大超過了摩爾定律。AI應用的需求增長導致了對計算硬件的需求快速增加,預計到2025年,AI應用對計算硬件的需求將增長約10%到15%。
受AI算力需求影響,GPU硬件廠商英偉達的數據中心收入持續增長,23年Q2的數據中心收入達到 $10.32B,比 23年Q1 增長 141%,比去年同期增長 171%。2024 財年第四季度中數據中心業務佔據83%以上營收,同步增長409%,其中40%用於大模型的推理場景,顯示出對於高性能算力的強大需求。
同時需要海量數據也對存儲和硬件內存提出了要求,尤其是在模型訓練階段,需要大量的參數輸入,需要存儲大量數據。在 AI 服務器中應用的存儲芯片主要包括:高帶寬存儲器 (HBM)、DRAM 和 SSD,針對 AI 服務器的工作場景需要提供更大的容量、更高的性能、更低的延遲和更高的響應速度。根據美光測算, AI 服務器中 DRAM 數量是傳統服務器的 8 倍,NAND 是傳統的 3 倍。
通常來說,算力主要應用在AI模型的訓練、微調和推測階段,尤其是在訓練微調階段,由於更大的數據參數輸入和計算量,同時對並行計算的互聯性要求更高,因此需要更性能、互聯能力更強的GPU硬件,通常是高性能的GPU算力集羣。隨着大模型的發展,計算復雜度也直線上升,使得需要更多高端硬件來滿足模型訓練需求。
以GPT3爲例,按1300萬獨立用戶訪問的情況來說,對應的芯片需求是3萬多片A100GPU。那麼初始投入成本將達到驚人的8億美元,每日模型推理費用預估費用70萬美元。
同時,據行業報道,2023年第四季度,NVIDIA GPU供應量在全球範圍內都被嚴格限制,導致全球市場都出現了明顯的供不應求。英偉達產能受限於臺積電、HBM、CoWos封裝等產能,H100的“嚴重缺貨問題”至少會持續到2024年底。
因此高端GPU的需求上升和供應受阻兩方面推動了當前GPU等硬件的高昂價格,尤其是類似英偉達這種佔據產業鏈底層核心的公司,通過龍頭壟斷還能進一步獲得價值紅利。例如英偉達的H100 AI加速卡的物料成本約爲3000美元,而在2023年中售價已經達到了3.5萬美元左右,甚至在eBay上賣出了超過4w美元的價格。
Grand View Research的報告顯示,全球雲AI市場的規模在2023年估計爲626.3億美元,並預計到2030年將增長到6476億美元,年復合增長率爲39.6%。這一數據反映了雲AI服務的增長潛力及其在整個AI產業鏈中所佔的重要份額。
根據a16z的估算,AIGC市場的大量資金最終流向了基礎設施公司。平均而言,應用程序公司將大約 20-40% 的收入用於推理和針對每個客戶的微調。這通常直接支付給計算實例的雲提供商或第三方模型提供商——反過來,第三方模型提供商將大約一半的收入花在雲基礎設施上。因此,有理由猜測當今AIGC總收入的 10-20% 流向了雲提供商。
同時,更大一部分的算力需求在於大型AI模型的訓練,例如各類LLM大模型,尤其是對於模型初創公司,80-90%的成本都用於AI算力使用。綜合來看,AI計算基礎設施(包括雲計算和硬件)預計佔據市場初期50%以上的價值。
如上文所述,當前中心化AI計算的成本高企,很重要的一個原因是AI訓練對高性能基礎設施的需求增長。但是實際上市場上大量仍然存在大量的算力面臨閒置的問題,出現了一部分的供需錯配。其中主要原因是:
面對以上問題,設計更加符合AI工作的高性能芯片或者專用ASIC芯片是目前很多開發者和大型企業在探索的方向,另一個角度則是綜合利用現有的計算資源,建設分布式算力網路,通過算力的租賃、共享、調度等來降低算力的成本。此外,目前市場有很多閒置的消費級GPU和CPU,單體算力不強,但是在某些場景或者與現有高性能芯片一起配置也能過滿足現有的計算需求,最重要的是供應充足,通過分布式網路調度能夠進一步降低成本。
因此分布式算力成爲了AI基礎設施發展的一個方向。同時因爲Web3與分布式具有相似的概念,去中心化算力網路也是當前Web3+AI基礎設施的主要應用方向。目前市場上的Web3去中心化算力平台普遍能夠提供相比較中心化雲算力低80%-90%的價格。
存儲雖然也爲AI最重要的基礎設施,但存儲對大規模、易用性、低延遲等要求使得目前中心化的存儲具有更大的優勢。而分布式計算網路由於其顯著的成本優勢,則存在更加切實的市場,能夠更大地享受到AI市場爆發帶來的紅利。
我們看到,分布式AI基礎設施需求強,且具有長期增長潛力,因此是易於敘事和受到資本青睞的領域。目前AI+Web3產業的基礎設施層的主要項目基本是以去中心化的計算網路爲主要的敘事,以低成本爲主要優勢,以代幣激勵爲主要方式擴展網路,服務AI+Web3客戶爲主要目標。主要包括兩個層面:
1.比較純粹的去中心化雲計算資源的共享和租賃平台:有很多早期的AI項目,例如Render Network、Akash Network等;
2.提供去中心化計算+ML工作流服務:有很多最近獲得高額融資的新興項目,例如Gensyn, io.net, Ritual等;
通過提供比中心化雲計算服務更優惠的價格,但配套和使用體驗比較相近的服務,這類項目獲得了很多頭部資本的認可,但同時技術復雜度也更高,目前基本在敘事和開發階段,還未有完善上線的產品。
Render Network 是一個基於區塊鏈的全球渲染平台,提供分布式的GPU,爲創作者提供更低成本,更高速的3D渲染服務,在創作者確認過渲染結果後,再由區塊鏈網路向節點發送代幣獎勵。平台提供分布式GPU的調度和分配網路,按照節點的用量情況、聲譽等進行作業的分配,最大化地提高計算的效率,減少資源閒置,降低成本。
Render Network的代幣RNDR是平台中的支付型代幣,創作者可以使用RNDR支付渲染服務,服務商則通過提供算力完成渲染作業而獲得RNDR獎勵。渲染服務的價格會根據當前網路中的用量情況等進行動態調節。
渲染是分布式算力架構運用相對合適且成熟的場景,因爲可以將渲染任務分爲多個子任務高度並行地執行,互相之前不需要過多的通信和交互,所以可以最大化避免分布式算力架構的弊端,同時充分利用廣泛的GPU節點網路,有效降低成本。
因此,Render Network的用戶需求也較爲可觀,自2017年創立以來,Render Network 用戶在網路上渲染了超過1600萬幀和近50萬個場景,且渲染幀數作業和活躍節點數都呈增長的趨勢。此外,Render Network 於2023 Q1 也推出了原生集成Stability AI 工具集,用戶可以的該項功能引入Stable Diffusion作業,業務也不再局限於渲染作業而向AI領域擴展。
Gensyn是一個用於深度學習計算的全球性的超級計算集羣網路,基於波卡的L1協議,2023年獲得了由 a16z 領投的4300萬美元A輪融資。
Gensyn的敘事架構中不僅包含了基礎設施的分布式算力集羣,還包括上層的驗證體系,證明在鏈外執行的大規模計算是按照鏈的要求執行的,即用區塊鏈來驗證,從而構建一個無需信任的機器學習網路。
分布式算力方面,Gensyn能夠支持從多餘容量的數據中心到帶有潛在GPU的個人筆記本電腦,它將這些設備連接成一個單一的虛擬集羣,開發者可以隨需訪問和點對點使用。Gensyn將創建一個價格由市場動態決定且向所有參與者開放的市場,可以使 ML 計算的單位成本達到公平均衡。
而驗證體系是Gensyn更重要的概念,它希望網路能夠驗證機器學習任務是否按照請求正確完成,它創新了一種更加高效的驗證方法,包含了概率性學習證明、基於圖的精準定位協議和Truebit式激勵遊戲三大核心技術點,相比傳統區塊鏈中的重復驗證方法更加高效。其網路中的參與者包括提交者、求解者、驗證者和舉報者,來完成整個驗證流程。
按照Gensyn 協議在白皮書中的綜合測試數據來看,目前其顯著優勢是:
但同時,分布式算力相比較本地訓練,由於通訊和網路問題,不可避免地增加了訓練時間,測試數據中,Gensyn 協議爲模型訓練增加了約 46% 的時間開銷。
Akash network是一個分布式的雲計算平台,結合不同的技術組件,讓用戶可以在去中心化的雲環境中高效、靈活地部署和管理應用程序,簡單地說,它提供用戶租賃分布式計算資源。
Akash的底層是分布在全球的多個基礎設施服務商,提供CPU、GPU、內存、存儲資源,並通過上層的Kubernetes 集羣將資源提供給用戶進行租賃。而用戶可以將應用程序部署爲 Docker 容器,來使用更低成本的基礎設施服務。同時,Akash 採用“反向拍賣”的方式,使得資源價格進一步降低。按照Akash官網的估算,其平台的服務成本比中心化服務器降低約80%以上。
io.net是一個去中心化計算網路,連接全球分布式的GPU,爲AI的模型訓練和推理等提供算力支持。io.net剛剛完成了3000萬美元的A輪融資,估值達到了10億美元。
io.net相比Render、Akash等,是一個更加健全、擴展性更強的去中心化計算網路,接入多個層面的開發者工具,其特點包括:
在價格上,io.net官網預計其價格將比中心化雲計算服務降低約90%。
此外,io.net的代幣IO coin未來主要用於生態內服務的支付和獎勵,或者需求方也可以用類似Helium的模式將IO coin燃燒換成穩定幣“IOSD積分”來進行支付。
本文轉載自[萬向區塊鏈],原文標題“AI+Web3未來發展之路(二):基礎設施篇”,著作權歸屬原作者[萬向區塊鏈],如對轉載有異議,請聯系Gate Learn團隊,團隊會根據相關流程盡速處理。
免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。
文章其他語言版本由Gate Learn團隊翻譯, 在未提及Gate.io的情況下不得復制、傳播或抄襲經翻譯文章。
Partilhar
轉發原文標題:AI+Web3未來發展之路(二):基礎設施篇
近年來,算力需求快速增長,尤其是在LLM大模型面世後,AI算力需求引爆了高性能算力市場。OpenAI數據顯示,自2012年以來,用於訓練最大AI模型的計算用量呈指數級增長,平均每3-4個月翻倍,其增長速度大大超過了摩爾定律。AI應用的需求增長導致了對計算硬件的需求快速增加,預計到2025年,AI應用對計算硬件的需求將增長約10%到15%。
受AI算力需求影響,GPU硬件廠商英偉達的數據中心收入持續增長,23年Q2的數據中心收入達到 $10.32B,比 23年Q1 增長 141%,比去年同期增長 171%。2024 財年第四季度中數據中心業務佔據83%以上營收,同步增長409%,其中40%用於大模型的推理場景,顯示出對於高性能算力的強大需求。
同時需要海量數據也對存儲和硬件內存提出了要求,尤其是在模型訓練階段,需要大量的參數輸入,需要存儲大量數據。在 AI 服務器中應用的存儲芯片主要包括:高帶寬存儲器 (HBM)、DRAM 和 SSD,針對 AI 服務器的工作場景需要提供更大的容量、更高的性能、更低的延遲和更高的響應速度。根據美光測算, AI 服務器中 DRAM 數量是傳統服務器的 8 倍,NAND 是傳統的 3 倍。
通常來說,算力主要應用在AI模型的訓練、微調和推測階段,尤其是在訓練微調階段,由於更大的數據參數輸入和計算量,同時對並行計算的互聯性要求更高,因此需要更性能、互聯能力更強的GPU硬件,通常是高性能的GPU算力集羣。隨着大模型的發展,計算復雜度也直線上升,使得需要更多高端硬件來滿足模型訓練需求。
以GPT3爲例,按1300萬獨立用戶訪問的情況來說,對應的芯片需求是3萬多片A100GPU。那麼初始投入成本將達到驚人的8億美元,每日模型推理費用預估費用70萬美元。
同時,據行業報道,2023年第四季度,NVIDIA GPU供應量在全球範圍內都被嚴格限制,導致全球市場都出現了明顯的供不應求。英偉達產能受限於臺積電、HBM、CoWos封裝等產能,H100的“嚴重缺貨問題”至少會持續到2024年底。
因此高端GPU的需求上升和供應受阻兩方面推動了當前GPU等硬件的高昂價格,尤其是類似英偉達這種佔據產業鏈底層核心的公司,通過龍頭壟斷還能進一步獲得價值紅利。例如英偉達的H100 AI加速卡的物料成本約爲3000美元,而在2023年中售價已經達到了3.5萬美元左右,甚至在eBay上賣出了超過4w美元的價格。
Grand View Research的報告顯示,全球雲AI市場的規模在2023年估計爲626.3億美元,並預計到2030年將增長到6476億美元,年復合增長率爲39.6%。這一數據反映了雲AI服務的增長潛力及其在整個AI產業鏈中所佔的重要份額。
根據a16z的估算,AIGC市場的大量資金最終流向了基礎設施公司。平均而言,應用程序公司將大約 20-40% 的收入用於推理和針對每個客戶的微調。這通常直接支付給計算實例的雲提供商或第三方模型提供商——反過來,第三方模型提供商將大約一半的收入花在雲基礎設施上。因此,有理由猜測當今AIGC總收入的 10-20% 流向了雲提供商。
同時,更大一部分的算力需求在於大型AI模型的訓練,例如各類LLM大模型,尤其是對於模型初創公司,80-90%的成本都用於AI算力使用。綜合來看,AI計算基礎設施(包括雲計算和硬件)預計佔據市場初期50%以上的價值。
如上文所述,當前中心化AI計算的成本高企,很重要的一個原因是AI訓練對高性能基礎設施的需求增長。但是實際上市場上大量仍然存在大量的算力面臨閒置的問題,出現了一部分的供需錯配。其中主要原因是:
面對以上問題,設計更加符合AI工作的高性能芯片或者專用ASIC芯片是目前很多開發者和大型企業在探索的方向,另一個角度則是綜合利用現有的計算資源,建設分布式算力網路,通過算力的租賃、共享、調度等來降低算力的成本。此外,目前市場有很多閒置的消費級GPU和CPU,單體算力不強,但是在某些場景或者與現有高性能芯片一起配置也能過滿足現有的計算需求,最重要的是供應充足,通過分布式網路調度能夠進一步降低成本。
因此分布式算力成爲了AI基礎設施發展的一個方向。同時因爲Web3與分布式具有相似的概念,去中心化算力網路也是當前Web3+AI基礎設施的主要應用方向。目前市場上的Web3去中心化算力平台普遍能夠提供相比較中心化雲算力低80%-90%的價格。
存儲雖然也爲AI最重要的基礎設施,但存儲對大規模、易用性、低延遲等要求使得目前中心化的存儲具有更大的優勢。而分布式計算網路由於其顯著的成本優勢,則存在更加切實的市場,能夠更大地享受到AI市場爆發帶來的紅利。
我們看到,分布式AI基礎設施需求強,且具有長期增長潛力,因此是易於敘事和受到資本青睞的領域。目前AI+Web3產業的基礎設施層的主要項目基本是以去中心化的計算網路爲主要的敘事,以低成本爲主要優勢,以代幣激勵爲主要方式擴展網路,服務AI+Web3客戶爲主要目標。主要包括兩個層面:
1.比較純粹的去中心化雲計算資源的共享和租賃平台:有很多早期的AI項目,例如Render Network、Akash Network等;
2.提供去中心化計算+ML工作流服務:有很多最近獲得高額融資的新興項目,例如Gensyn, io.net, Ritual等;
通過提供比中心化雲計算服務更優惠的價格,但配套和使用體驗比較相近的服務,這類項目獲得了很多頭部資本的認可,但同時技術復雜度也更高,目前基本在敘事和開發階段,還未有完善上線的產品。
Render Network 是一個基於區塊鏈的全球渲染平台,提供分布式的GPU,爲創作者提供更低成本,更高速的3D渲染服務,在創作者確認過渲染結果後,再由區塊鏈網路向節點發送代幣獎勵。平台提供分布式GPU的調度和分配網路,按照節點的用量情況、聲譽等進行作業的分配,最大化地提高計算的效率,減少資源閒置,降低成本。
Render Network的代幣RNDR是平台中的支付型代幣,創作者可以使用RNDR支付渲染服務,服務商則通過提供算力完成渲染作業而獲得RNDR獎勵。渲染服務的價格會根據當前網路中的用量情況等進行動態調節。
渲染是分布式算力架構運用相對合適且成熟的場景,因爲可以將渲染任務分爲多個子任務高度並行地執行,互相之前不需要過多的通信和交互,所以可以最大化避免分布式算力架構的弊端,同時充分利用廣泛的GPU節點網路,有效降低成本。
因此,Render Network的用戶需求也較爲可觀,自2017年創立以來,Render Network 用戶在網路上渲染了超過1600萬幀和近50萬個場景,且渲染幀數作業和活躍節點數都呈增長的趨勢。此外,Render Network 於2023 Q1 也推出了原生集成Stability AI 工具集,用戶可以的該項功能引入Stable Diffusion作業,業務也不再局限於渲染作業而向AI領域擴展。
Gensyn是一個用於深度學習計算的全球性的超級計算集羣網路,基於波卡的L1協議,2023年獲得了由 a16z 領投的4300萬美元A輪融資。
Gensyn的敘事架構中不僅包含了基礎設施的分布式算力集羣,還包括上層的驗證體系,證明在鏈外執行的大規模計算是按照鏈的要求執行的,即用區塊鏈來驗證,從而構建一個無需信任的機器學習網路。
分布式算力方面,Gensyn能夠支持從多餘容量的數據中心到帶有潛在GPU的個人筆記本電腦,它將這些設備連接成一個單一的虛擬集羣,開發者可以隨需訪問和點對點使用。Gensyn將創建一個價格由市場動態決定且向所有參與者開放的市場,可以使 ML 計算的單位成本達到公平均衡。
而驗證體系是Gensyn更重要的概念,它希望網路能夠驗證機器學習任務是否按照請求正確完成,它創新了一種更加高效的驗證方法,包含了概率性學習證明、基於圖的精準定位協議和Truebit式激勵遊戲三大核心技術點,相比傳統區塊鏈中的重復驗證方法更加高效。其網路中的參與者包括提交者、求解者、驗證者和舉報者,來完成整個驗證流程。
按照Gensyn 協議在白皮書中的綜合測試數據來看,目前其顯著優勢是:
但同時,分布式算力相比較本地訓練,由於通訊和網路問題,不可避免地增加了訓練時間,測試數據中,Gensyn 協議爲模型訓練增加了約 46% 的時間開銷。
Akash network是一個分布式的雲計算平台,結合不同的技術組件,讓用戶可以在去中心化的雲環境中高效、靈活地部署和管理應用程序,簡單地說,它提供用戶租賃分布式計算資源。
Akash的底層是分布在全球的多個基礎設施服務商,提供CPU、GPU、內存、存儲資源,並通過上層的Kubernetes 集羣將資源提供給用戶進行租賃。而用戶可以將應用程序部署爲 Docker 容器,來使用更低成本的基礎設施服務。同時,Akash 採用“反向拍賣”的方式,使得資源價格進一步降低。按照Akash官網的估算,其平台的服務成本比中心化服務器降低約80%以上。
io.net是一個去中心化計算網路,連接全球分布式的GPU,爲AI的模型訓練和推理等提供算力支持。io.net剛剛完成了3000萬美元的A輪融資,估值達到了10億美元。
io.net相比Render、Akash等,是一個更加健全、擴展性更強的去中心化計算網路,接入多個層面的開發者工具,其特點包括:
在價格上,io.net官網預計其價格將比中心化雲計算服務降低約90%。
此外,io.net的代幣IO coin未來主要用於生態內服務的支付和獎勵,或者需求方也可以用類似Helium的模式將IO coin燃燒換成穩定幣“IOSD積分”來進行支付。
本文轉載自[萬向區塊鏈],原文標題“AI+Web3未來發展之路(二):基礎設施篇”,著作權歸屬原作者[萬向區塊鏈],如對轉載有異議,請聯系Gate Learn團隊,團隊會根據相關流程盡速處理。
免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。
文章其他語言版本由Gate Learn團隊翻譯, 在未提及Gate.io的情況下不得復制、傳播或抄襲經翻譯文章。