Cohere发布开源大模型Command A+：无损量化与原生引用赋能企业

模型发布与开源战略

加拿大AI实验室Cohere近期因与德国AI创业公司Aleph Alpha合并而备受关注，如今又为全球企业开发者带来重磅消息：由前谷歌工程师、“Attention Is All You Need”合著者艾丹·戈麦斯（Aidan Gomez）联合创立的该公司，正式推出高度优化的2180亿参数语言模型Command A+，专为复杂推理、多模态文档处理及代理工作流设计。

此次发布的核心突破不仅在于模型性能，更在于其开放性。Cohere将模型权重免费发布至Hugging Face代码共享仓库，采用Apache 2.0开源许可——据戈麦斯（现Cohere CEO）在X平台发文，这是公司首次采取此类策略。此举旨在践行“主权AI”理念，即企业、政府及开发者应能在自身安全环境中运行、控制并适配前沿AI，无需牺牲性能。

稀疏架构与无损量化技术

高效稀疏混合专家架构

Command A+在架构层面实现了从传统密集模型到稀疏模型的重大升级，采用解码器-only的稀疏混合专家（MoE）Transformer架构。尽管模型总参数量达2180亿，但实际运行时仅激活25亿参数，显著降低了计算资源消耗，推理效率远超OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7（据第三方观察者估计，后两者参数量达数万亿级）。

MoE架构通过将输入查询路由至特定“专家”神经网络处理，其余部分保持休眠，实现了“大模型知识储备、小模型运行效率”的平衡。这一设计使模型在保留海量知识库与精细推理能力的同时，大幅提升运行速度并降低能耗。

无损量化与硬件优化

Command A+在量化压缩技术上取得关键突破。量化通过降低参数精度压缩模型内存占用，通常推理模型会因量化损失性能，但Cohere通过“仅对MoE专家进行4位量化，保持关键注意力路径全精度”的策略，结合量化感知蒸馏技术，实现了近乎无损的压缩效果。

模型提供16位（BF16）、8位（FP8）及4位（W4A4）三种格式，其中W4A4是技术核心。该格式下，模型可在单颗NVIDIA Blackwell B200 GPU或两颗H100 GPU上运行。性能数据显示，W4A4量化在低并发场景下实现375 tokens/秒的输出速度，首token延迟仅113毫秒，较上一代Command A推理模型提升63%速度并降低17%延迟。

性能提升与多语言支持

代理工作流与基准测试

Command A+专为“代理”任务设计，支持AI自主或半自主运行、调用外部工具、查询数据库及多步骤信息整合。在多项基准测试中表现亮眼：𝜏²-Bench Telecom（复杂推理）得分从37%跃升至85%；Terminal-Bench Hard（代理编码）从3%提升至25%；AIME 25（复杂数学）得分90%，较前代57%大幅提升。

尽管在代理编码及通用智能索引方面暂落后于DeepSeek V4 Pro、Z.ai（GLM）等中国开源竞品，但Cohere的核心优势在于硬件效率，其25亿活跃参数的规模在推理成本与性能间实现了更优平衡。

多语言优化与原生引用

多语言支持：新分词器优化全球企业应用，原生支持48种语言，尤其提升非欧洲语言效率，阿拉伯语响应token数减少20%，日语18%，韩语16%，直接降低多语言部署的运营成本。
原生引用生成：模型调用外部工具时，不仅整合信息，还通过特殊标签生成“来源跨度”，将每项事实声明直接链接至对应源文档或数据库行。这对金融、医疗、法律等强监管行业至关重要，可避免幻觉风险，确保可追溯性。

此外，Command A+具备全模态处理能力，支持文本与图像在128K输入上下文窗口内原生处理，适用于复杂文档分析等场景。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a