【Gemini 3.5 Flash：Google称可助企业年省超10亿美元AI成本】

【正文】

Google于周二在年度I/O开发者大会上正式发布Gemini 3.5 Flash，这款新人工智能模型被公司宣称打破了AI行业长期以来的“铁律”：最智能的模型往往也是运行最慢、成本最高的。

在周一的媒体简报会上，Google首席执行官桑达尔·皮查伊（Sundar Pichai）向记者透露，对于每天在Google Cloud上处理约1万亿token的企业，若将80%的工作负载迁移至Flash与其他前沿模型的混合方案，每年可节省超10亿美元。他补充道：“你可能听过其他首席信息官的轶事，说公司已经耗尽了年度token预算，而这才5月。”皮查伊将Flash定位为不仅是一项技术成就，更是为陷入AI规模化部署成本失控困境的组织提供的财务生命线。

这一宣称若成真，将是企业AI经济学自大型语言模型进入企业计算以来最显著的转变之一。

企业为何被迫在AI质量与速度间做选择

过去三年，采用生成式AI的组织一直面临痛苦的权衡：最强大的模型——能处理复杂多步骤问题、编写可靠代码、解析密集金融文档的——往往体积大、速度慢、查询成本高；而更快的模型则牺牲准确性。首席信息官们被迫像管理投资组合一样管理AI：将简单查询路由至轻量级模型，将高难度任务留给重型推理引擎。这种系统复杂且脆弱，增加了工程开销，还常导致用户体验不一致。

Gemini 3.5 Flash直接针对这一权衡。根据Google内部基准测试及第三方分析机构Artificial Analysis的评估，该模型在几乎所有主要基准测试中都优于Google自家的Gemini 3.1 Pro（该公司仅4-5个月前还将其定位为顶级旗舰模型）。其得分包括：Terminal-Bench 2.1测试76.2%、GDPval-AA测试1656 Elo、MCP Atlas测试83.6%，以及在多模态理解方面以CharXiv Reasoning测试84.2%领先。

然而，它实现这一切的同时，输出token的速度是竞争对手同类前沿模型的4倍。Google DeepMind首席技术官兼AI首席架构师Koray Kavukcuoglu透露，团队进一步优化了Flash：“我们开发了一个更优化的版本，不仅快4倍，而是12倍，且质量相同。”该“涡轮”变体已于周二在Google的智能开发平台Antigravity中上线。

皮查伊用直白的话概括了性能差距：“3.5 Flash比4个月前的3.1 Pro更好，其性能几乎达到前沿模型的90%，速度是前者的4倍，在Antigravity中可能达12倍，且成本仅为前者的1/3到1/2。”

在Artificial Analysis的“智能与速度指数”中，Flash占据“右上象限”（唯一做到这一点的模型），这是目前竞争对手无法企及的位置。

Google 10亿美元节省主张背后的万亿token计算

要理解Flash对企业买家的重要性，需先明白token的经济性——这是AI模型处理的基本数据单元。每个客户服务聊天机器人回答的问题、每份AI总结的法律文件、每行AI编写的代码，都消耗token。在前沿模型定价下，token成本增长极快。Google称其模型API现在每分钟处理约19亿token；在其所有自有平台——搜索、Gemini应用、Workspace等——每月处理超过3.2四万亿token，这一数字在过去一年增长了7倍（2024年I/O大会时为9.7万亿/月）。

token消耗的激增并非Google独有。各行业企业发现，其AI部署能力越强，消耗的token越多。智能工作流程（AI系统自主执行多步骤任务、调用工具、编写并运行代码、迭代输出）尤其消耗token。一次智能编码会话的token消耗量可能是简单问答的数倍。

这正是Flash成本优势的变革性所在。Google称其以不到同类前沿模型一半的价格（某些情况下近三分之一）提供前沿级能力。对于每天在Google Cloud上处理1万亿token的假设企业（皮查伊称已有顶级客户达到此规模），将80%工作负载迁移至Flash与前沿模型的混合方案，年节省将超10亿美元。

这并非四舍五入的误差，而是能重塑采购决策、加速部署时间表、从根本上改变AI项目投资回报率计算（许多董事会正日益不耐烦地审视这一指标）的数字。

Google工程师如何打造竞争对手难以复制的数据飞轮

周二Google分享的最具战略意义的信息并非基准分数或价格点，而是一张图表，显示其内部在Antigravity 2.0（其重新设计的智能开发平台）上的token消耗情况。2026年3月，Google开发者在Antigravity中的token消耗约为每天5000亿；到5月中旬I/O媒体简报会时，这一数字已飙升至每天3万亿——约10周内增长6倍，且皮查伊称“每几周就翻倍”。

这种内部使用形成了AI研究者所说的“数据飞轮”：Google工程师越多用Flash构建产品，模型团队收集的关于模型优缺点的真实世界信号就越多；这些信号反馈至模型改进，使模型更实用，进而推动更多使用，产生更多信号。这是一个良性循环——也是竞争对手难以轻易复制的优势。

关注微信号：智享开源 ，更多信息访问网站：blog.imcn.me

原文链接：https://venturebeat.com/technology/google-says-gemini-3-5-flash-can-slash-enterprise-ai-costs-by-more-than-1-billion-a-year