【Gemini 3.5 Flash:Google称可助企业年省超10亿美元AI成本】

【正文】
Google于周二在年度I/O开发者大会上正式发布Gemini 3.5 Flash,这款新人工智能模型被公司宣称打破了AI行业长期以来的“铁律”:最智能的模型往往也是运行最慢、成本最高的。
在周一的媒体简报会上,Google首席执行官桑达尔·皮查伊(Sundar Pichai)向记者透露,对于每天在Google Cloud上处理约1万亿token的企业,若将80%的工作负载迁移至Flash与其他前沿模型的混合方案,每年可节省超10亿美元。他补充道:“你可能听过其他首席信息官的轶事,说公司已经耗尽了年度token预算,而这才5月。”皮查伊将Flash定位为不仅是一项技术成就,更是为陷入AI规模化部署成本失控困境的组织提供的财务生命线。
这一宣称若成真,将是企业AI经济学自大型语言模型进入企业计算以来最显著的转变之一。
企业为何被迫在AI质量与速度间做选择
过去三年,采用生成式AI的组织一直面临痛苦的权衡:最强大的模型——能处理复杂多步骤问题、编写可靠代码、解析密集金融文档的——往往体积大、速度慢、查询成本高;而更快的模型则牺牲准确性。首席信息官们被迫像管理投资组合一样管理AI:将简单查询路由至轻量级模型,将高难度任务留给重型推理引擎。这种系统复杂且脆弱,增加了工程开销,还常导致用户体验不一致。
Gemini 3.5 Flash直接针对这一权衡。根据Google内部基准测试及第三方分析机构Artificial Analysis的评估,该模型在几乎所有主要基准测试中都优于Google自家的Gemini 3.1 Pro(该公司仅4-5个月前还将其定位为顶级旗舰模型)。其得分包括:Terminal-Bench 2.1测试76.2%、GDPval-AA测试1656 Elo、MCP Atlas测试83.6%,以及在多模态理解方面以CharXiv Reasoning测试84.2%领先。
然而,它实现这一切的同时,输出token的速度是竞争对手同类前沿模型的4倍。Google DeepMind首席技术官兼AI首席架构师Koray Kavukcuoglu透露,团队进一步优化了Flash:“我们开发了一个更优化的版本,不仅快4倍,而是12倍,且质量相同。”该“涡轮”变体已于周二在Google的智能开发平台Antigravity中上线。
皮查伊用直白的话概括了性能差距:“3.5 Flash比4个月前的3.1 Pro更好,其性能几乎达到前沿模型的90%,速度是前者的4倍,在Antigravity中可能达12倍,且成本仅为前者的1/3到1/2。”
在Artificial Analysis的“智能与速度指数”中,Flash占据“右上象限”(唯一做到这一点的模型),这是目前竞争对手无法企及的位置。
Google 10亿美元节省主张背后的万亿token计算
要理解Flash对企业买家的重要性,需先明白token的经济性——这是AI模型处理的基本数据单元。每个客户服务聊天机器人回答的问题、每份AI总结的法律文件、每行AI编写的代码,都消耗token。在前沿模型定价下,token成本增长极快。Google称其模型API现在每分钟处理约19亿token;在其所有自有平台——搜索、Gemini应用、Workspace等——每月处理超过3.2四万亿token,这一数字在过去一年增长了7倍(2024年I/O大会时为9.7万亿/月)。
token消耗的激增并非Google独有。各行业企业发现,其AI部署能力越强,消耗的token越多。智能工作流程(AI系统自主执行多步骤任务、调用工具、编写并运行代码、迭代输出)尤其消耗token。一次智能编码会话的token消耗量可能是简单问答的数倍。
这正是Flash成本优势的变革性所在。Google称其以不到同类前沿模型一半的价格(某些情况下近三分之一)提供前沿级能力。对于每天在Google Cloud上处理1万亿token的假设企业(皮查伊称已有顶级客户达到此规模),将80%工作负载迁移至Flash与前沿模型的混合方案,年节省将超10亿美元。
这并非四舍五入的误差,而是能重塑采购决策、加速部署时间表、从根本上改变AI项目投资回报率计算(许多董事会正日益不耐烦地审视这一指标)的数字。
Google工程师如何打造竞争对手难以复制的数据飞轮
周二Google分享的最具战略意义的信息并非基准分数或价格点,而是一张图表,显示其内部在Antigravity 2.0(其重新设计的智能开发平台)上的token消耗情况。2026年3月,Google开发者在Antigravity中的token消耗约为每天5000亿;到5月中旬I/O媒体简报会时,这一数字已飙升至每天3万亿——约10周内增长6倍,且皮查伊称“每几周就翻倍”。
这种内部使用形成了AI研究者所说的“数据飞轮”:Google工程师越多用Flash构建产品,模型团队收集的关于模型优缺点的真实世界信号就越多;这些信号反馈至模型改进,使模型更实用,进而推动更多使用,产生更多信号。这是一个良性循环——也是竞争对手难以轻易复制的优势。
关注微信号:智享开源 ,更多信息访问网站:blog.imcn.me

关注微信

还没有任何评论,你来说两句吧!