算力短缺下的大模型商機:新型算力服務模式崛起

算力服務成爲新商業模式,大模型"煉丹"熱潮之後如何轉向?

近期,使用全球40年天氣數據,利用200張GPU卡進行爲期約2個月的預訓練,一個參數量達億級的氣象大模型誕生了。這是清華大學畢業3年的一位年輕人訓練大模型的經歷。

從成本角度看,按每小時7.8元/張GPU計算,該氣象大模型的訓練成本可能超過200萬元。而如果訓練的是通用大模型,成本可能要增加百倍。

數據顯示,中國目前已有超過100個10億參數規模的大模型。然而,行業蜂擁而上的大模型"煉丹"卻面臨着高端GPU緊缺的困境。算力成本居高不下,缺乏算力和資金已成爲擺在行業面前最直觀的問題。

高端GPU短缺情況

"確實很缺,但我們也無可奈何。"一位大企業高管如此回應GPU短缺問題。

這似乎已成爲業內公認的難題。高峯期時一張英偉達A100的價格被炒到20-30萬元,單臺A100服務器的月租也飆升至5-7萬元。即便如此,高價也不一定能買到芯片,一些算力供應商甚至遇到過供應商違約等罕見情況。

一位雲計算行業高管也表示:"算力短缺確實存在。很多客戶都想要高端GPU資源,但我們目前無法完全滿足廣泛的市場需求。"

短期內,高端GPU短缺在整個行業都難以解決。大模型熱潮使市場對算力需求快速增長,但供給量增速遠遠跟不上。雖然從長遠來看,算力供給必然會從賣方市場轉向買方市場,但這個過程需要多長時間,目前仍是未知數。

各家企業都在盤算自己擁有多少英偉達GPU,並以此判斷市場份額。有知情人士舉例說,如果手中接近1萬張卡,而市場總量爲10萬張,那份額就是10%。"到年底保有量可能達到4萬張,如果市場總量爲20萬張,那可能佔20%的市場份額。"

一邊是買不到GPU卡,另一邊是大模型訓練門檻並沒有業界宣傳的那麼容易入門。前面提到的氣象大模型訓練成本可能超過200萬元,但需要注意的是,這是在通用大模型基礎上訓練出的垂直領域模型,參數規模爲億級。如果要訓練十億或更大規模的通用大模型,成本可能要增加十倍、百倍。

某科技公司高管透露:"目前投資規模最大的是模型訓練,沒有幾十億資本投入,很難持續做大模型。"

一位創業者這樣描述當前大模型競爭態勢:"要跑得快,至少在資金耗盡前能有成果獲得下一輪'融資'。如果沒有上百億或上千億資金支持,這條路很難走通。"

在此局面下,業內普遍認爲,隨着大模型市場的角逐,市場也會從狂熱轉向理性,企業也會隨着預期變化來控制成本、調整策略。

應對算力短缺的積極舉措

沒有條件也要創造條件 - 這似乎是大多數大模型參與者的心態。各家企業都在尋找辦法應對實際存在的問題。

由於高端GPU芯片短缺,且中國市場能用的GPU不是最新一代,性能通常較低,所以企業需要更長時間來訓練大模型。這些公司也在尋找創新方法來彌補算力短板。

其中一種方法是使用更高質量的數據進行訓練,從而提升訓練效率。近期發布的一份行業報告建議,在數據質量方面引入人工標注和確認,從原始數據中挑選一定比例進行標注,構建高質量數據集。

除了通過高質量數據降低大模型成本,提升基礎架構能力,實現千卡以上穩定運行兩周不掉卡,也是技術難點和優化方向之一。

一位雲服務商高管表示:"作爲雲服務商,我們會幫助客戶建立穩定可靠的基礎架構。因爲GPU服務器穩定性較差,任何故障都會導致訓練中斷,增加整體訓練時長。高性能計算集羣可以爲客戶提供更穩定的服務,相對縮短訓練時間,解決部分算力問題。"

同時,算力卡資源調度也考驗服務商的技術能力。一位互聯網解決方案負責人說:"擁有算力卡資源只是一方面,如何將卡資源調度起來,真正投入使用,才是更具挑戰的核心能力和工程能力。把一個卡拆分成多個小卡,實現分布式的精細化調度,可以進一步降低算力成本。"

網路也影響大模型訓練速度和效率。大模型訓練動輒需要上千張GPU卡,連接數百臺GPU服務器對網路速度要求極高,網絡擁塞會嚴重影響訓練速度和效率。

一些廠商另闢蹊徑,從雲計算架構轉向超算架構也成爲降低成本的方法。在滿足用戶需求的情況下,對於非高通量計算任務和並行任務場景,超算雲的價格約爲雲超算的一半,再通過性能優化可將資源利用率從30%提高到60%。

此外,也有廠商選擇使用國產平台進行大模型訓練和推理,以替代緊缺的英偉達GPU。某企業高管表示,他們與華爲聯合推出的一體機可在國產平台上進行訓練和推理,華爲GPU性能已可與英偉達媲美。

上述方法每一種都是一個較大工程,一般企業很難通過自建數據中心來滿足需求,許多算法團隊選擇專業算力廠商提供支持。並行存儲也是一大成本和技術挑戰,此外還需考慮IDC可用區電力成本、軟件平台成本、人員成本等運營成本。

千卡級GPU集羣才能實現規模效應,選擇算力服務商意味着邊際成本趨近於零。

一位院士指出,AIGC帶來人工智能產業爆發,而智能技術規模化應用存在典型長尾問題。具備強AI能力的部門、科研院校與大中企業僅佔算力需求主體約20%,另80%爲中小微企業。這類主體受限於規模和預算,往往難以獲取算力資源或受限於高昂價格,難以在AI時代獲得發展紅利。

因此,要實現智能技術規模化應用,讓人工智能產業既"叫好"又"叫座",需要大量廉價易用的智能算力,使中小微企業也能方便、低成本地使用算力。

無論是大模型對算力的迫切需求,還是算力應用過程中需解決的各種難題,都反映出一個新變化:算力已在市場需求和技術迭代過程中,成爲一種新的服務模式。

探索算力服務新模式

我們爭搶的大模型算力究竟是什麼?解答這個問題需要先從算力服務說起。

算力分爲通用算力、智能算力和超算算力,而這些算力成爲一種服務,是市場與技術雙重驅動的結果。

一份行業白皮書將算力服務定義爲:以多樣性算力爲基礎,以算力網路爲連結,以供給有效算力爲目標的算力產業新領域。

算力服務的本質是通過全新計算技術實現異構算力統一輸出,並與雲、大數據、AI等技術交叉融合。算力服務不僅包含算力,還是算力、存儲、網路等資源的統一封裝,以服務形式(如API)完成算力交付。

了解這一點就會發現,爭搶英偉達芯片的很大一部分是算力服務提供商,即算力生產者。真正在前端調用算力API的行業用戶,只需提出相應的算力需求。

據了解,從軟件角度看,所有軟件交互產生的大模型使用分爲三種:一是大模型API調用,各家有報價,按價結算;二是自有小模型,自購算力,甚至自行部署;三是大模型廠商與雲廠商合作,即專署雲,按月支付。某辦公軟件公司高管表示,他們主要採用API調用,內部小模型則自建算力調度平台。

也就是說,在算力產業鏈結構中,上遊企業主要完成對通用算力、智算算力、超算算力、存儲和網路等算力服務支撐資源的供給。例如,在大模型算力爭奪戰中,英偉達屬於上遊算力基礎資源供應商,向行業供應芯片。

中遊企業以雲服務商、新型算力服務提供商爲主,他們通過算力編排、調度、交易技術實現算力生產,並通過API等方式完成算力供給。算力服務中遊企業的服務化能力越強,對應用方的門檻越低,越有助於算力的普惠、泛在化發展。

下遊企業則是依靠算力服務提供的計算能力進行增值服務生產的產業鏈角色,如行業用戶等。這部分用戶只需提出需求,算力生產者則根據需求配置對應算力完成用戶下達的"算力任務"。

這比原來自行購買服務器搭建大模型算力環境更具成本和技術優勢。

算力商業模式迭代

以某早期推出的通用大模型爲例,據公開消息,其使用了國內多家主流AI算力服務商。知情人士表示,理論上可能用遍了所有主流算力服務商/雲服務商。

按量計費和包年包月計費是當前算力服務的主流模式,使用需求大致有兩種:一是選擇對應的算力服務實例,如某雲服務商提供搭載英偉達A800、A100、V100三種主流顯卡的高性能GPU服務器;二是選擇對應的MaaS服務平台,在平台中對大模型進行行業精調。

當前行業也在推進算力服務的"算網一體化融合",通過對計算任務、算網資源狀態等信息的綜合判斷,形成可支持跨架構、跨地域、跨服務商調度的算網編排方案,並完成相關資源部署。例如,只需預存資金,就可在算力網路中的分區隨意調用,根據應用特點選擇最適合、最快或最具性價比的分區,按時長計費並從預存資金中扣除費用。

雲服務商也如此,算力服務作爲雲服務的獨特產品,使他們迅速參與到算力產業鏈中。

工信部數據顯示,2022年中國算力總規模達到180EFLOPS,位列全球第二。截至2022年,中國算力產業規模已達1.8萬億元。大模型算力在很大程度上加速了算力產業發展。

有觀點認爲,當前的算力服務實際上是一種新型"賣電"模式。只是根據分工不同,部分算力服務商可能需要爲用戶提供更多系統性能調試、軟件安裝、大規模作業運行值守和運行特徵分析等最後一公裏運維工作。

隨着大模型高性能計算需求常態化,脫胎於雲服務的算力服務快速進入大衆視野,形成了獨特的產業鏈和商業模式。只是在算力產業因大模型而爆發之初,高端GPU短缺、算力成本高企、爭搶芯片形成了這個時代的獨特風景。

有知情人士評論:"目前競爭的是供應鏈中誰能獲得GPU卡,英偉達是當前整個行業的王者,控制着所有市場,這是現狀。"在供不應求的情況下,誰能獲得GPU卡,誰就能交付業務。

但並非所有人都在爭搶GPU卡,因爲短缺是暫時的,問題終將解決。"長期研究者其實不急於搶購,正常等待即可,因爲他們不會倒閉。現在真正搶購GPU卡的主要是一批創業公司,他們需要確保能生存到明年。"上述人士表示。

在諸多不確定性中,算力成爲一種服務是確定趨勢,算力服務商需要未雨綢繆,爲大模型回歸理性、市場風向快速轉變時做好準備。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 4
  • 分享
留言
0/400
闪电出击小王子vip
· 07-13 10:09
两百万还算少的 烧钱呐
回復0
终于从矿工变农民vip
· 07-13 10:08
两百万咋想的 烧钱呗
回復0
GasFeePhobiavip
· 07-13 10:06
丧炉炸矿,饿死啦
回復0
进场姿势研究员vip
· 07-13 10:02
真就这么内卷烧钱呗
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)