GPU利用率仅5%:企业4010亿美元AI基础设施的隐形成本

在过去24个月里,一个叙事为每个过度配置的数据中心和膨胀的IT预算提供了正当理由:GPU抢购热潮。硅成为新石油,H100显卡像违禁品一样交易。现在不储备容量,你的企业就会被甩在后面。
账单现在到期了,首席财务官开始关注。Gartner估计,AI基础设施今年将新增4010亿美元支出。但现实世界的审计揭示了更严峻的图景:企业平均GPU利用率仅停留在5%。
这种利用率下限是由一个自我强化的采购循环驱动的,使得闲置GPU几乎无法释放。这种转变更加紧迫的原因是资本支出现实正冲击企业资产负债表。许多组织在传统的三到五年折旧周期内锁定GPU容量,超大规模云服务商甚至长达五年。这意味着在”GPU抢购”高峰期购买的基础设施现在是固定成本,无论实际使用多少。
随着这些资产老化,问题不再在于投资是否合理,而在于能否使其产生效益。未被充分利用的GPU不仅是闲置资源,更是必须产生可衡量回报的折旧资产。这迫使思维发生转变:从获取容量转向最大化已部署资源的经济产出。
抢购热潮只是插曲
对于”一级”企业——如Intuit、Mastercard和Pfizer等——获取能力很少是真正瓶颈。凭借与AWS、Azure和GCP的深厚关系,这些组织确保了容量预留,而这些容量在内部团队处理数据引力、治理和架构不成熟问题时一直闲置。
行业的”稀缺性”叙事成为这种低效的 Convenient smokescreen。当头条关注供应链延迟时,内部现实是巨大的生产力差距。组织在购买芯片方面很活跃,但在生成有用代币方面却几乎为零。
在5%的利用率下,数学计算根本不成立。每花在硅上的1美元,其中95美分实质上是捐赠给云服务商的利润。在其他部门,95%的浪费指标会导致解雇;在AI基础设施中,这被称为”准备就绪”。
Q1追踪器:市场转向的信号
VentureBeat的《2026年第一季度AI基础设施与计算市场追踪器》确认恐慌阶段已正式结束。该追踪器是方向性的而非统计 definitive——1月调查了53名合格受访者,2月为39名——但两轮调查的模式是一致的。当我们询问IT决策者当前真正驱动其提供商选择的因素时,结果显示市场正在快速转向:
- 访问崩溃: “GPU访问/可用性”因素在单季度内从20.8%降至15.4%——从首要关注点变为次要关注点,仅用90天。
- 务实转向: “与现有云和数据栈集成”在两轮调查中均保持约43%的顶级优先级,而安全与合规要求从41.5%飙升至48.7%,几乎与集成并驾齐驱。
- TCO强制: “每推理成本/TCO(总拥有成本)”作为顶级优先级的比例在单季度内从34%跃升至41%,超越性能成为主要的采购视角。
空白支票时代已经结束。推理是AI成为项目成本明细的地方。
训练甚至微调是战术性项目;推理是战略性商业模式。对大多数企业来说,这种模式的单位经济学目前不可持续。在初始试点阶段,固定费用许可和捆绑代币交易允许架构浪费。团队构建长上下文代理和复杂检索管道,因为代币实质上是沉没成本。
随着行业在2026年转向基于用量的定价,这些相同的架构已成为负债。当计量计费应用于95%时间闲置的基础设施堆栈时,每有用代币的成本在项目进入生产阶段的那一刻就变成了项目成本明细的紧急事项。
从活动到生产力
我们Q1数据中强调的转变不仅仅是预算修正;它代表了衡量AI领导者成功方式的基本变化。
过去两年,成功在于” securing”堆栈。在效率时代,成功在于” squeezing”堆栈。这就是为什么成本优化平台在我们的调查中看到了最大的计划预算增长,成为顶级优先级,因为组织意识到购买更多GPU通常不是正确答案。
IT用户越来越多地询问如何停止为未使用的GPU付费。他们正从衡量GPU活动(有多少芯片开机)转向衡量GPU生产力(每美元支出生成多少有用代币)。
低利用率的奢侈现在已成为负债。企业AI戏剧的下一幕更多是关于找到让现有硅自给自足的方法。
掌握铸币权:代币消费者与生产者的选择
随着组织从概念验证转向生产,焦点从最新GPU转向代币生成的架构。在这个新的经济现实中,每个企业都必须决定其在代币经济中的角色:你是代币消费者,向模型提供商支付永久税,还是代币生产者,拥有基础设施及其带来的单位经济学?
这个选择不仅关乎成本;它关乎组织如何处理复杂性。拥有推理基础设施意味着克服KV缓存持久性,理解存储架构,了解可容忍的延迟保证,并解决电力约束。它还引入了现实世界的企业限制,如电力可用性、数据中心占地面积和运营复杂性,这些直接影响了AI扩展的深度和速度。
这一挑战的核心是KV缓存经济学。在GPU内存中存储上下文提供性能,但成本高昂,限制并发性并推高每代币成本。将KV缓存卸载到共享NVMe存储可以提高重用率并减少预填充开销,但会引入延迟和系统设计的权衡。随着NVMe成本上升而GPU内存仍然稀缺,组织被迫在性能与效率之间取得平衡。
对于代币生产者来说,管理这些权衡——跨越内存、存储、电力和运营——仅仅是大规模经营的商业成本。对于其他人来说,开销仍然过高,需要不同的路径。
转向专用云
VentureBeat的Q1追踪器显示市场已经在投票选择这一策略。企业顶级战略方向现在是将其更多工作负载转移到专用AI云,这一类别在我们的最新调查中从30.2%增长到35.9%。
这些提供商——包括Coreweave、Lambda和Crusoe——正在进化。虽然它们最初通过服务模型构建者和训练密集型工作负载获得了立足点,但它们的收入组合正在
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信

近期评论
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!