人工智能浪潮来袭,ChatGPT、DeepSeek的出现,正在掀起一场全球范围内的AI竞赛。算力、算法、数据成为AI企业的“命脉”,缺一不可。
据研究,在这场如火如荼的AI竞赛中,超过50%的AI公司会选择租赁算力的形式进行大模型的训练和推理,仅少数的大型互联网公司和弹药充足的AI公司自建智能算力中心,为自家模型提供算力支持。
这是为什么呢?这篇文章将深度分析自建算力中心和第三方算力租赁的区别,揭示AI公司大多采取算力租赁的原因!
自建成本 VS 租赁成本
自建智能算力中心,虽然能提供稳定的算力资源,但公司需要承担天价的硬件投入和长期的运维成本。
以建设一个英伟达H100构成的千卡集群智算中心为例,前期投入成本预计如下:
这意味着,仅购买算力设备和其他基础设施的投入就高达3.5亿元。其中,算力设备是自建智算中心的最大支出项,网络设备、存储与安全设备、平台软件及液冷改造等配套投入也需押注数千万元。
智算中心建成后,日常的电力消耗、人员维护也需长期的资本投入,预计每年还需支付约5000万元的运维成本。
也就是说,在国内搭建一个千卡集群规模的小型智算中心,前期要支付3.5亿硬件成本,每年还要掏5000万元用于维持运转。这种重资产模式对大多数AI公司而言,无疑是一笔“天价账单”。
相反,向第三方智算中心租赁算力,无需硬件投入,也不必考虑服务器维护,只需关注当前阶段模型训练或模型推理需求,支付相应的GPU云服务器租赁费用。例如,在算力云平台按月租用A100单卡GPU服务器,成本不超过1800元。
自建效率 VS 租赁效率
一方面,自建智算中心的模式下,企业需经历漫长的硬件采购周期、机房选址与施工,延迟项目进度。而租赁算力可直接调用现成的第三方算力资源池,部署效率提升10倍以上,尤其适合AI公司快速抢占技术风口。
另一方面,AI训练任务通常呈脉冲式需求,如集中训练期需1000卡GPU,日常推理仅需100卡GPU。自建模式下,非训练期算力闲置造成巨大浪费,而算力租赁服务支持弹性伸缩,AI公司只为实际消耗的算力资源付费。因此,部分AI公司在算力需求还不稳定的初期阶段,往往也会采取算力租赁的形式。
自建风险 VS 租赁风险
大多AI公司在考虑到数据安全时,往往认为自建算力中心能保护公司私密数据,事实的确如此。第三方算力租赁可能存在数据泄露的风险,但是可以通过寻找可信任的算力供应商解决,比如大型的云服务商,在业内有一定的知名度和信任度。比如,算力云平台提供的算力服务在保证租用方数据安全方面,就获得很高的评价。
对于资金并不雄厚或处于创业初期的AI公司,出于综合考虑,算力租赁的确是更有利的选择,AI公司通过第三方租用算力资源,免费维护服务器的负担,团队更加专注于模型研发和商业化落地等工作,快人一步抢占AI市场。
总的来讲,自建智算中心和第三方算力租赁有如下区别:
算力租赁已成人工智能时代的基础操作,当大模型从千亿级别向万亿级别跳跃增长,“算力储备竞赛”已经悄悄拉开帷幕。AI公司通过租赁获取弹性、低成本、免运维的算力,正在成为AI公司降本增效、快速迭代的核心生存策略。
以上是算力云今日内容分享,感兴趣的朋友可以多多关注!
|