📢 Gate广场 #创作者活动第一期# 火热开启,助力 PUMP 公募上线!
Solana 爆火项目 Pump.Fun($PUMP)现已登陆 Gate 平台开启公开发售!
参与 Gate广场创作者活动,释放内容力量,赢取奖励!
📅 活动时间:7月11日 18:00 - 7月15日 22:00(UTC+8)
🎁 活动总奖池:$500 USDT 等值代币奖励
✅ 活动一:创作广场贴文,赢取优质内容奖励
📅 活动时间:2025年7月12日 22:00 - 7月15日 22:00(UTC+8)
📌 参与方式:在 Gate 广场发布与 PUMP 项目相关的原创贴文
内容不少于 100 字
必须带上话题标签: #创作者活动第一期# #PumpFun#
🏆 奖励设置:
一等奖(1名):$100
二等奖(2名):$50
三等奖(10名):$10
📋 评选维度:Gate平台相关性、内容质量、互动量(点赞+评论)等综合指标;参与认购的截图的截图、经验分享优先;
✅ 活动二:发推同步传播,赢传播力奖励
📌 参与方式:在 X(推特)上发布与 PUMP 项目相关内容
内容不少于 100 字
使用标签: #PumpFun # Gate
发布后填写登记表登记回链 👉 https://www.gate.com/questionnaire/6874
🏆 奖励设置:传播影响力前 10 名用户,瓜分 $2
算力短缺下的大模型商机:新型算力服务模式崛起
算力服务成为新商业模式,大模型"炼丹"热潮之后如何转向?
近期,使用全球40年天气数据,利用200张GPU卡进行为期约2个月的预训练,一个参数量达亿级的气象大模型诞生了。这是清华大学毕业3年的一位年轻人训练大模型的经历。
从成本角度看,按每小时7.8元/张GPU计算,该气象大模型的训练成本可能超过200万元。而如果训练的是通用大模型,成本可能要增加百倍。
数据显示,中国目前已有超过100个10亿参数规模的大模型。然而,行业蜂拥而上的大模型"炼丹"却面临着高端GPU紧缺的困境。算力成本居高不下,缺乏算力和资金已成为摆在行业面前最直观的问题。
高端GPU短缺情况
"确实很缺,但我们也无可奈何。"一位大企业高管如此回应GPU短缺问题。
这似乎已成为业内公认的难题。高峰期时一张英伟达A100的价格被炒到20-30万元,单台A100服务器的月租也飙升至5-7万元。即便如此,高价也不一定能买到芯片,一些算力供应商甚至遇到过供应商违约等罕见情况。
一位云计算行业高管也表示:"算力短缺确实存在。很多客户都想要高端GPU资源,但我们目前无法完全满足广泛的市场需求。"
短期内,高端GPU短缺在整个行业都难以解决。大模型热潮使市场对算力需求快速增长,但供给量增速远远跟不上。虽然从长远来看,算力供给必然会从卖方市场转向买方市场,但这个过程需要多长时间,目前仍是未知数。
各家企业都在盘算自己拥有多少英伟达GPU,并以此判断市场份额。有知情人士举例说,如果手中接近1万张卡,而市场总量为10万张,那份额就是10%。"到年底保有量可能达到4万张,如果市场总量为20万张,那可能占20%的市场份额。"
一边是买不到GPU卡,另一边是大模型训练门槛并没有业界宣传的那么容易入门。前面提到的气象大模型训练成本可能超过200万元,但需要注意的是,这是在通用大模型基础上训练出的垂直领域模型,参数规模为亿级。如果要训练十亿或更大规模的通用大模型,成本可能要增加十倍、百倍。
某科技公司高管透露:"目前投资规模最大的是模型训练,没有几十亿资本投入,很难持续做大模型。"
一位创业者这样描述当前大模型竞争态势:"要跑得快,至少在资金耗尽前能有成果获得下一轮'融资'。如果没有上百亿或上千亿资金支持,这条路很难走通。"
在此局面下,业内普遍认为,随着大模型市场的角逐,市场也会从狂热转向理性,企业也会随着预期变化来控制成本、调整策略。
应对算力短缺的积极举措
没有条件也要创造条件 - 这似乎是大多数大模型参与者的心态。各家企业都在寻找办法应对实际存在的问题。
由于高端GPU芯片短缺,且中国市场能用的GPU不是最新一代,性能通常较低,所以企业需要更长时间来训练大模型。这些公司也在寻找创新方法来弥补算力短板。
其中一种方法是使用更高质量的数据进行训练,从而提升训练效率。近期发布的一份行业报告建议,在数据质量方面引入人工标注和确认,从原始数据中挑选一定比例进行标注,构建高质量数据集。
除了通过高质量数据降低大模型成本,提升基础架构能力,实现千卡以上稳定运行两周不掉卡,也是技术难点和优化方向之一。
一位云服务商高管表示:"作为云服务商,我们会帮助客户建立稳定可靠的基础架构。因为GPU服务器稳定性较差,任何故障都会导致训练中断,增加整体训练时长。高性能计算集群可以为客户提供更稳定的服务,相对缩短训练时间,解决部分算力问题。"
同时,算力卡资源调度也考验服务商的技术能力。一位互联网解决方案负责人说:"拥有算力卡资源只是一方面,如何将卡资源调度起来,真正投入使用,才是更具挑战的核心能力和工程能力。把一个卡拆分成多个小卡,实现分布式的精细化调度,可以进一步降低算力成本。"
网络也影响大模型训练速度和效率。大模型训练动辄需要上千张GPU卡,连接数百台GPU服务器对网络速度要求极高,网络拥塞会严重影响训练速度和效率。
一些厂商另辟蹊径,从云计算架构转向超算架构也成为降低成本的方法。在满足用户需求的情况下,对于非高通量计算任务和并行任务场景,超算云的价格约为云超算的一半,再通过性能优化可将资源利用率从30%提高到60%。
此外,也有厂商选择使用国产平台进行大模型训练和推理,以替代紧缺的英伟达GPU。某企业高管表示,他们与华为联合推出的一体机可在国产平台上进行训练和推理,华为GPU性能已可与英伟达媲美。
上述方法每一种都是一个较大工程,一般企业很难通过自建数据中心来满足需求,许多算法团队选择专业算力厂商提供支持。并行存储也是一大成本和技术挑战,此外还需考虑IDC可用区电力成本、软件平台成本、人员成本等运营成本。
千卡级GPU集群才能实现规模效应,选择算力服务商意味着边际成本趋近于零。
一位院士指出,AIGC带来人工智能产业爆发,而智能技术规模化应用存在典型长尾问题。具备强AI能力的部门、科研院校与大中企业仅占算力需求主体约20%,另80%为中小微企业。这类主体受限于规模和预算,往往难以获取算力资源或受限于高昂价格,难以在AI时代获得发展红利。
因此,要实现智能技术规模化应用,让人工智能产业既"叫好"又"叫座",需要大量廉价易用的智能算力,使中小微企业也能方便、低成本地使用算力。
无论是大模型对算力的迫切需求,还是算力应用过程中需解决的各种难题,都反映出一个新变化:算力已在市场需求和技术迭代过程中,成为一种新的服务模式。
探索算力服务新模式
我们争抢的大模型算力究竟是什么?解答这个问题需要先从算力服务说起。
算力分为通用算力、智能算力和超算算力,而这些算力成为一种服务,是市场与技术双重驱动的结果。
一份行业白皮书将算力服务定义为:以多样性算力为基础,以算力网络为链接,以供给有效算力为目标的算力产业新领域。
算力服务的本质是通过全新计算技术实现异构算力统一输出,并与云、大数据、AI等技术交叉融合。算力服务不仅包含算力,还是算力、存储、网络等资源的统一封装,以服务形式(如API)完成算力交付。
了解这一点就会发现,争抢英伟达芯片的很大一部分是算力服务提供商,即算力生产者。真正在前端调用算力API的行业用户,只需提出相应的算力需求。
据了解,从软件角度看,所有软件交互产生的大模型使用分为三种:一是大模型API调用,各家有报价,按价结算;二是自有小模型,自购算力,甚至自行部署;三是大模型厂商与云厂商合作,即专署云,按月支付。某办公软件公司高管表示,他们主要采用API调用,内部小模型则自建算力调度平台。
也就是说,在算力产业链结构中,上游企业主要完成对通用算力、智算算力、超算算力、存储和网络等算力服务支撑资源的供给。例如,在大模型算力争夺战中,英伟达属于上游算力基础资源供应商,向行业供应芯片。
中游企业以云服务商、新型算力服务提供商为主,他们通过算力编排、调度、交易技术实现算力生产,并通过API等方式完成算力供给。算力服务中游企业的服务化能力越强,对应用方的门槛越低,越有助于算力的普惠、泛在化发展。
下游企业则是依靠算力服务提供的计算能力进行增值服务生产的产业链角色,如行业用户等。这部分用户只需提出需求,算力生产者则根据需求配置对应算力完成用户下达的"算力任务"。
这比原来自行购买服务器搭建大模型算力环境更具成本和技术优势。
算力商业模式迭代
以某早期推出的通用大模型为例,据公开消息,其使用了国内多家主流AI算力服务商。知情人士表示,理论上可能用遍了所有主流算力服务商/云服务商。
按量计费和包年包月计费是当前算力服务的主流模式,使用需求大致有两种:一是选择对应的算力服务实例,如某云服务商提供搭载英伟达A800、A100、V100三种主流显卡的高性能GPU服务器;二是选择对应的MaaS服务平台,在平台中对大模型进行行业精调。
当前行业也在推进算力服务的"算网一体化融合",通过对计算任务、算网资源状态等信息的综合判断,形成可支持跨架构、跨地域、跨服务商调度的算网编排方案,并完成相关资源部署。例如,只需预存资金,就可在算力网络中的分区随意调用,根据应用特点选择最适合、最快或最具性价比的分区,按时长计费并从预存资金中扣除费用。
云服务商也如此,算力服务作为云服务的独特产品,使他们迅速参与到算力产业链中。
工信部数据显示,2022年中国算力总规模达到180EFLOPS,位列全球第二。截至2022年,中国算力产业规模已达1.8万亿元。大模型算力在很大程度上加速了算力产业发展。
有观点认为,当前的算力服务实际上是一种新型"卖电"模式。只是根据分工不同,部分算力服务商可能需要为用户提供更多系统性能调试、软件安装、大规模作业运行值守和运行特征分析等最后一公里运维工作。
随着大模型高性能计算需求常态化,脱胎于云服务的算力服务快速进入大众视野,形成了独特的产业链和商业模式。只是在算力产业因大模型而爆发之初,高端GPU短缺、算力成本高企、争抢芯片形成了这个时代的独特风景。
有知情人士评论:"目前竞争的是供应链中谁能获得GPU卡,英伟达是当前整个行业的王者,控制着所有市场,这是现状。"在供不应求的情况下,谁能获得GPU卡,谁就能交付业务。
但并非所有人都在争抢GPU卡,因为短缺是暂时的,问题终将解决。"长期研究者其实不急于抢购,正常等待即可,因为他们不会倒闭。现在真正抢购GPU卡的主要是一批创业公司,他们需要确保能生存到明年。"上述人士表示。
在诸多不确定性中,算力成为一种服务是确定趋势,算力服务商需要未雨绸缪,为大模型回归理性、市场风向快速转变时做好准备。