Cohere发布开源大模型Command A+:无损量化与原生引用赋能企业

Cohere发布开源大模型Command A+:无损量化与原生引用赋能企业

模型发布与开源战略

加拿大AI实验室Cohere近期因与德国AI创业公司Aleph Alpha合并而备受关注,如今又为全球企业开发者带来重磅消息:由前谷歌工程师、“Attention Is All You Need”合著者艾丹·戈麦斯(Aidan Gomez)联合创立的该公司,正式推出高度优化的2180亿参数语言模型Command A+,专为复杂推理、多模态文档处理及代理工作流设计。

此次发布的核心突破不仅在于模型性能,更在于其开放性。Cohere将模型权重免费发布至Hugging Face代码共享仓库,采用Apache 2.0开源许可——据戈麦斯(现Cohere CEO)在X平台发文,这是公司首次采取此类策略。此举旨在践行“主权AI”理念,即企业、政府及开发者应能在自身安全环境中运行、控制并适配前沿AI,无需牺牲性能。

稀疏架构与无损量化技术

高效稀疏混合专家架构

Command A+在架构层面实现了从传统密集模型到稀疏模型的重大升级,采用解码器-only的稀疏混合专家(MoE)Transformer架构。尽管模型总参数量达2180亿,但实际运行时仅激活25亿参数,显著降低了计算资源消耗,推理效率远超OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7(据第三方观察者估计,后两者参数量达数万亿级)。

MoE架构通过将输入查询路由至特定“专家”神经网络处理,其余部分保持休眠,实现了“大模型知识储备、小模型运行效率”的平衡。这一设计使模型在保留海量知识库与精细推理能力的同时,大幅提升运行速度并降低能耗。

无损量化与硬件优化

Command A+在量化压缩技术上取得关键突破。量化通过降低参数精度压缩模型内存占用,通常推理模型会因量化损失性能,但Cohere通过“仅对MoE专家进行4位量化,保持关键注意力路径全精度”的策略,结合量化感知蒸馏技术,实现了近乎无损的压缩效果。

模型提供16位(BF16)、8位(FP8)及4位(W4A4)三种格式,其中W4A4是技术核心。该格式下,模型可在单颗NVIDIA Blackwell B200 GPU或两颗H100 GPU上运行。性能数据显示,W4A4量化在低并发场景下实现375 tokens/秒的输出速度,首token延迟仅113毫秒,较上一代Command A推理模型提升63%速度并降低17%延迟。

性能提升与多语言支持

代理工作流与基准测试

Command A+专为“代理”任务设计,支持AI自主或半自主运行、调用外部工具、查询数据库及多步骤信息整合。在多项基准测试中表现亮眼:𝜏²-Bench Telecom(复杂推理)得分从37%跃升至85%;Terminal-Bench Hard(代理编码)从3%提升至25%;AIME 25(复杂数学)得分90%,较前代57%大幅提升。

尽管在代理编码及通用智能索引方面暂落后于DeepSeek V4 Pro、Z.ai(GLM)等中国开源竞品,但Cohere的核心优势在于硬件效率,其25亿活跃参数的规模在推理成本与性能间实现了更优平衡。

多语言优化与原生引用

  • 多语言支持:新分词器优化全球企业应用,原生支持48种语言,尤其提升非欧洲语言效率,阿拉伯语响应token数减少20%,日语18%,韩语16%,直接降低多语言部署的运营成本。
  • 原生引用生成:模型调用外部工具时,不仅整合信息,还通过特殊标签生成“来源跨度”,将每项事实声明直接链接至对应源文档或数据库行。这对金融、医疗、法律等强监管行业至关重要,可避免幻觉风险,确保可追溯性。

此外,Command A+具备全模态处理能力,支持文本与图像在128K输入上下文窗口内原生处理,适用于复杂文档分析等场景。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章897篇


关注微信

主站最新信息

[blog_mailer_subscribe]

分类