Cohere发布开源大模型Command A+:无损量化与原生引用赋能企业

模型发布与开源战略
加拿大AI实验室Cohere近期因与德国AI创业公司Aleph Alpha合并而备受关注,如今又为全球企业开发者带来重磅消息:由前谷歌工程师、“Attention Is All You Need”合著者艾丹·戈麦斯(Aidan Gomez)联合创立的该公司,正式推出高度优化的2180亿参数语言模型Command A+,专为复杂推理、多模态文档处理及代理工作流设计。
此次发布的核心突破不仅在于模型性能,更在于其开放性。Cohere将模型权重免费发布至Hugging Face代码共享仓库,采用Apache 2.0开源许可——据戈麦斯(现Cohere CEO)在X平台发文,这是公司首次采取此类策略。此举旨在践行“主权AI”理念,即企业、政府及开发者应能在自身安全环境中运行、控制并适配前沿AI,无需牺牲性能。
稀疏架构与无损量化技术
高效稀疏混合专家架构
Command A+在架构层面实现了从传统密集模型到稀疏模型的重大升级,采用解码器-only的稀疏混合专家(MoE)Transformer架构。尽管模型总参数量达2180亿,但实际运行时仅激活25亿参数,显著降低了计算资源消耗,推理效率远超OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7(据第三方观察者估计,后两者参数量达数万亿级)。
MoE架构通过将输入查询路由至特定“专家”神经网络处理,其余部分保持休眠,实现了“大模型知识储备、小模型运行效率”的平衡。这一设计使模型在保留海量知识库与精细推理能力的同时,大幅提升运行速度并降低能耗。
无损量化与硬件优化
Command A+在量化压缩技术上取得关键突破。量化通过降低参数精度压缩模型内存占用,通常推理模型会因量化损失性能,但Cohere通过“仅对MoE专家进行4位量化,保持关键注意力路径全精度”的策略,结合量化感知蒸馏技术,实现了近乎无损的压缩效果。
模型提供16位(BF16)、8位(FP8)及4位(W4A4)三种格式,其中W4A4是技术核心。该格式下,模型可在单颗NVIDIA Blackwell B200 GPU或两颗H100 GPU上运行。性能数据显示,W4A4量化在低并发场景下实现375 tokens/秒的输出速度,首token延迟仅113毫秒,较上一代Command A推理模型提升63%速度并降低17%延迟。
性能提升与多语言支持
代理工作流与基准测试
Command A+专为“代理”任务设计,支持AI自主或半自主运行、调用外部工具、查询数据库及多步骤信息整合。在多项基准测试中表现亮眼:𝜏²-Bench Telecom(复杂推理)得分从37%跃升至85%;Terminal-Bench Hard(代理编码)从3%提升至25%;AIME 25(复杂数学)得分90%,较前代57%大幅提升。
尽管在代理编码及通用智能索引方面暂落后于DeepSeek V4 Pro、Z.ai(GLM)等中国开源竞品,但Cohere的核心优势在于硬件效率,其25亿活跃参数的规模在推理成本与性能间实现了更优平衡。
多语言优化与原生引用
- 多语言支持:新分词器优化全球企业应用,原生支持48种语言,尤其提升非欧洲语言效率,阿拉伯语响应token数减少20%,日语18%,韩语16%,直接降低多语言部署的运营成本。
- 原生引用生成:模型调用外部工具时,不仅整合信息,还通过特殊标签生成“来源跨度”,将每项事实声明直接链接至对应源文档或数据库行。这对金融、医疗、法律等强监管行业至关重要,可避免幻觉风险,确保可追溯性。
此外,Command A+具备全模态处理能力,支持文本与图像在128K输入上下文窗口内原生处理,适用于复杂文档分析等场景。
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!