ZAYA1-8B:AMD GPU训练的高效开源推理模型

小模型,大能量:ZAYA1-8B的突破性表现

当OpenAI和Anthropic等巨头在算力竞赛中不断推出更大、更强的模型时,一些研究机构正朝着不同的方向探索——开发更小、更高效的模型,并常常将它们开源。Zyphra这家不太为人知的帕洛阿尔托初创公司本周发布的ZAYA1-8B正是这一趋势的最新代表。这款推理模型采用混合专家(MoE)架构,仅拥有80亿参数,其中活跃参数仅为7.6亿,远低于大公司模型的万亿级别。然而,在第三方基准测试中,ZAYA1-8B的表现与GPT-5-High和DeepSeek-V3.2不相上下。

该模型现可从Hugging Face免费下载,采用宽松、标准的Apache 2.0许可证,企业和独立开发者可以立即开始使用和定制。个人用户也可以在Zyphra Cloud的推理平台上免费测试。但最引人注目的亮点是ZAYA1-8B的训练硬件:整套AMD Instinct MI300图形处理单元(GPU),这是AMD在近三年前推出的NVIDIA GPU竞争对手。这一事实表明,该平台能够产出有用的模型,为AI开发者提供了NVIDIA长期占据的替代方案。

ZAYA1-8B的训练之道

Zyphra所推崇的”智能密度”源于其所谓的”全栈创新”方法,涵盖了架构、预训练和强化学习(RL)。

ZAYA1-8B基于Zyphra专有的MoE++架构构建,该架构在实验室发布的技术报告中有所描述。这种架构对催生大语言模型(LLM)和整个生成式AI时代的标准Transformer架构进行了三项根本性改进:

  • 压缩卷积注意力(CCA):与标准注意力机制在上下文窗口增大时面临内存挑战不同,CCA在压缩的潜在空间中进行序列混合,相比全多头注意力实现了8倍的KV-cache大小缩减,从而实现更高效的长上下文推理。
  • ZAYA1 MLP路由器:大多数MoE模型使用线性路由器来决定哪个”专家”处理特定令牌。Zyphra将其替换为更具表现力的多层MLP设计。为保持训练稳定性(这是MoE模型的常见障碍),他们实施了受经典控制理论PID控制器启发的偏置平衡方案。
  • 学习残差缩放:这控制着数据在模型40层中深入流动时”残差范数”的增长,防止梯度消失或爆炸,且计算开销可忽略不计。

以推理为核心的预训练

ZAYA1-8B的一个关键区别在于推理能力从预训练初期就被集成,而不是在后期训练中”附加”上去。

为了处理原本会超出初始4K预训练上下文的长链式思考(CoT)轨迹,Zyphra开发了答案保留(AP)修剪技术。

可以将AP修剪想象成电影编辑师剪辑长场景:编辑师不会剪掉结尾(解决方案)或完全删除场景,而是移除角色独白中的”中间”部分,同时保留开头(问题设置)和最终揭示(答案)。

这确保模型即使在完整的内部逻辑尚未完全适配内存的情况下,也能学习复杂问题与其解决方案之间的关系。在我的 countertop 污渍去除测试查询中,ZAYA1-8B在Zyphra Cloud上运行时表现良好。

马尔可夫RSA:重新定义测试时计算

模型最显著的性能飞跃来自马尔可夫RSA,一种新颖的测试时计算(TTC)方法。

传统上,如果你想让模型”更深入思考”,就让它生成更长的思维链。然而,这常常导致”上下文膨胀”,即随着历史记录过长,模型失去焦点。

马尔可夫RSA通过将”思考深度”与”上下文大小”解耦来解决这个问题。它类似于递归的科学同行评审过程:

  • 模型生成多个并行的推理轨迹(候选)。
  • 然后仅提取这些轨迹的”尾部”(最后几千个令牌)。
  • 这些尾部经过子采样,并在新的”聚合提示”中呈现给模型,要求它将不同方法协调为更好的解决方案。

通过只传递尾部(通常为4K令牌预算),模型可以无限推理而不会溢出上下文窗口。实际上,这使得拥有7亿活跃参数的ZAYA1-8B在AIME ’25测试中获得了91.9%的分数,缩小了与活跃参数数量是其30到50倍的模型之间的差距。

由于ZAYA1-8B保持较小的总参数量(84亿),它特别适合设备端部署和本地LLM应用。对于企业而言,这使得高阶推理能力——传统上仅保留给大型云端模型——可以直接部署到本地硬件或边缘设备上。这种”本地优先”的推理方法解决了企业在数据驻留、延迟以及持久API依赖的高成本方面的常见障碍。

基准测试显示:小模型也能出类拔萃

Zyphra将ZAYA1-8B定位为”出类拔萃”的模型,适合需要高阶推理但不想承担巨大模型延迟或成本的开发者。毕竟,其活跃参数数量远低于其他同类模型,使其在推理运行时更便宜、计算要求更低。

  • 指令遵循:ZAYA1-8B在IFEval上获得85.58分,与Intellect-3(106B)等更大模型保持竞争力。
  • 代理能力:τ²基准上,模型达到43.12,在BFCL-v4上达到39.22,为其处理工具调用和多轮任务的能力提供了基准。

在单次推理评估(没有额外的”思考”时间)中,ZAYA1-8B已经超越其同级别模型,在数学和代码基准测试中击败Qwen3.5-4BGemma-4-E4B

当启用马尔可夫RSA时,结果令人惊讶:

  • HMMT ’25(数学):ZAYA1-8B达到89.6%,超越Claude 4.5 Sonnet(79.2%)和GPT-5-High(88.3%)。
  • LiveCodeBench(编程):模型获得69.2%,优于DeepSeek-R1-0528

Zyphra指出,尽管该模型在算法推理方面是专家,但在”知识密集型”任务(如广泛事实检索MMLU-Pro)上略逊于大型模型,这表明虽然推理可以压缩到更小的核心中,但事实记忆仍受益于原始参数数量。


关注微信号:智享开源 ,可及时获取信息

原文链接:https://venturebeat.com/technology/meet-zaya1-8b-a-super-efficient-open-reasoning-model-trained-on-amd-instinct-mi300-gpus

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章557篇


关注微信

分类