Cerebras芯片性能惊人：万亿参数AI模型速度超GPU云7倍

性能突破：Cerebras芯片运行万亿参数模型速度达981令牌/秒

在完成2026年最大规模科技IPO后不到一周，总部位于硅谷的芯片制造商Cerebras Systems便向快速增长的AI推理市场发起了最猛烈的攻势。该公司于周一宣布，其芯片现已为商业客户运行由北京Moonshot AI开发的Kimi K2.6——一个万亿参数的开源权重模型——速度高达981个输出令牌/秒，这一速度是任何基于GPU的提供商都难以企及的。

这一结果经独立基准测试公司Artificial Analysis验证，Cerebras的速度比次快的GPU云提供商快6.7倍，比行业平均水平快23倍。对于涉及10,000个输入令牌的标准代理编码请求，Cerebras能够在5.6秒内完成完整响应（包括提示处理、推理和500个输出令牌），而官方Kimi端点则需要163.7秒，时间缩短了29倍。

Cerebras产品营销总监James Wang在宣布前接受VentureBeat独家采访时表示：”我们非常明确地展示，我们能够处理最大的模型。在这种情况下，Kimi K2.6——一个基于晶圆级架构的万亿参数MoE模型——它以我们闻名的惊人速度运行。”

技术里程碑：晶圆级芯片解决万亿参数速度瓶颈

这一宣布标志着Cerebras的一个重要转折点，该公司长期以来一直面临一种看法：其非传统的晶圆级芯片虽然速度惊人，但只能处理小型和中型模型。Kimi K2.6是该公司首次在生产环境中服务的万亿参数开源权重模型。

随着95亿美元市值和5.55亿美元IPO募资的注入，Cerebras正向华尔街传递信号：它不仅要在速度前沿竞争，还要在模型规模前沿竞争。

为什么选择Kimi K2.6作为旗舰模型？

Moonshot AI于4月20日发布的Kimi K2.6是一个万亿参数的Mixture-of-Experts模型，迅速成为编码和代理任务中最强大的开源权重模型。该模型在SWE-Bench Pro上得分58.6，超过Claude Opus 4.6并匹配GPT-5.4，同时在Humanity’s Last Exam和DeepSearchQA等代理基准测试中取得领先分数。其架构使用每令牌32亿激活参数，总计1万亿参数，拥有384个专家，每次前向传播选择8个专家加1个共享专家，操作于256,000令牌的上下文窗口。

实际上，K2.6是企业可以合理替代Anthropic和OpenAI昂贵且容量受限的闭源API的首批开源模型之一，尤其适用于已成为大型语言模型最高价值应用的编码和代理工作负载。2.6版本将K2.6的能力从前端设计扩展到全栈工作流程，包括身份验证、数据库操作和长期代理执行。

Wang直言不讳地指出了企业兴趣的驱动力：”首先，他们非常渴望拥有Anthropic的替代品，”他告诉VentureBeat，”Anthropic的模型非常出色，我使用它们，我相信你可能也使用它们。但它们相当昂贵，而且经常容量不足。”他描述了一个个人经历：一个运行在Anthropic API上的应用程序在周末因容量不足而失败——这一轶事，他说，深深引起企业买家的共鸣。

晶圆级芯片如何解决GPU无法解决的速度问题

理解Cerebras为何能达到如此速度，需要了解其硬件与市场上其他产品的根本区别。当今大多数AI推理运行在Nvidia GPU集群上——通常是72个GPU组成的机架，Nvidia将其营销为NVL72配置。在这些设置中，模型参数分布在许多离散芯片上，通过高速网络互连。数据必须不断在芯片之间传输，GPU之间的互连带宽成为瓶颈，特别是对于拥有数百亿或万亿参数的大型模型。

Cerebras采用了一种 radically 不同的方法。其Wafer-Scale Engine 3芯片大小相当于整个硅晶圆——大约餐盘大小——包含44GB片上SRAM。与GPU中使用的高带宽内存不同，SRAM直接位于处理器芯片上，提供显著更低的延迟和更高的数据访问带宽。对于Kimi K2.6，Cerebras以原始4位精度存储模型权重，同时以16位浮点执行计算。权重分布在约20个CS-3系统的集群中的多个晶圆上，激活在它们之间流式传输。关键的是，每个MoE层的所有专家都放置在同一晶圆上，这意味着专家路由所需的all-to-all通信以SRAM速度发生。根据Cerebras的技术描述，片上网络互连的带宽是NVL72上NVLink的200倍以上。

Wang用一个比喻解释了这种架构：”我们的单个单元更大，容量更高——它们相当于20个机架，而不是72个GPU，”他说，”Transformer的每一层实际上可以同时为不同的用户服务，”它们就像一个队列，就像你在排队买贝果一样——它们都占据硬件的不同部分。但由于它们移动得如此之快，实际的用户体验，每秒令牌数，仍然是您习惯的。”

结合定制内核和推测解码，这使Cerebras能够以接近1,000令牌/秒的速度服务万亿参数MoE模型——该公司称这是只有晶圆级硬件才能实现的世界纪录。

商业影响：财富500强公司已在生产环境中测试

Cerebras并未向公众开放K2.6，但已与财富500强公司进行生产环境测试。这些企业客户正在评估其技术能力以及与使用中国开发模型相关的地缘政治因素。Moonshot AI总部位于北京，K2.6在西方的采用恰逢中国AI公司在美国市场面临更严格审查的时期。具有严格合规要求的企业买家——特别是金融、医疗和国防领域的公司——需要与模型的技术能力一同评估这一维度。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/technology/cerebras-says-its-chips-run-a-trillion-parameter-ai-model-nearly-7-times-faster-than-gpu-clouds