更便宜的代币,更大的账单:AI基础设施的新数学

由Nutanix提供

随着企业从AI实验转向生产部署,主要成本驱动因素已从基础模型训练转向运行大规模并发推理工作所需的基础设施,而智能体AI则成为加速器。早期的企业AI项目涉及少量大型、计划内的训练任务,而生产级智能体环境需要持续支持短暂且不可预测的请求,这些请求以传统基础设施从未设计过的方式消耗GPU、网络和存储资源。

对于企业技术领导者来说,这种转变使基础设施效率成为AI经济中的决定性因素。

每位配备AI助理的员工、每个自动化工作流程、每个智能体管道都需要模型进行推理,并生成大量代币,”Nutanix产品副总裁Anindo Sengupta表示。”这些推理请求落在GPU基础设施上,穿越专用网络,并从专门为支持这些AI工作负载而构建的存储系统中提取数据。”

为什么每代币成本成为核心基础设施指标

过去两年,推理每代币成本下降了约一个数量级,这得益于模型效率改进和云服务提供商之间的竞争压力。按照预期,企业AI应该变得更便宜。但Sengupta表示,总成本实际上在上升,这指向经济学家所说的杰文斯悖论:当使用某种资源的成本降低时,消费量往往比价格下降得更快。

因此,虽然过去几年每代币成本下降了近10倍,但消费量却增长了100多倍。结果是,每代币成本和GPU利用率正成为企业IT的主要运营指标,与传统指标如正常运行时间和吞吐量并列。

“每代币成本实际上关乎运行推理模型的总拥有成本,”Sengupta说。”利用率则是确保一旦拥有GPU资产,就能获得最大回报。这些指标对企业IT领导者至关重要。”

困难的变量因素

使这一点变得困难的是涉及的变量数量。代币成本会根据组织运行的模型、工作负载执行位置以及提示结构而变化。

“成本中的变量太多,难以直观管理,”Sengupta…

原文链接:https://venturebeat.com/orchestration/cheaper-tokens-bigger-bills-the-new-math-of-ai-infrastructure


关注微信号:智享开源 关注微博:IMCN开源资讯网 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章375篇


关注微信

分类