ZAYA1-8B：AMD GPU训练的高效开源推理模型 | 菜鸟博客

当前位置：首页
» 科技 » ZAYA1-8B：AMD GPU训练的高效开源推理模型

ZAYA1-8B：AMD GPU训练的高效开源推理模型

Mark Do 暂无评论阅读 5 次

小模型，大能量：ZAYA1-8B的突破性表现

当OpenAI和Anthropic等巨头在算力竞赛中不断推出更大、更强的模型时，一些研究机构正朝着不同的方向探索——开发更小、更高效的模型，并常常将它们开源。Zyphra这家不太为人知的帕洛阿尔托初创公司本周发布的ZAYA1-8B正是这一趋势的最新代表。这款推理模型采用混合专家(MoE)架构，仅拥有80亿参数，其中活跃参数仅为7.6亿，远低于大公司模型的万亿级别。然而，在第三方基准测试中，ZAYA1-8B的表现与GPT-5-High和DeepSeek-V3.2不相上下。

该模型现可从Hugging Face免费下载，采用宽松、标准的Apache 2.0许可证，企业和独立开发者可以立即开始使用和定制。个人用户也可以在Zyphra Cloud的推理平台上免费测试。但最引人注目的亮点是ZAYA1-8B的训练硬件：整套AMD Instinct MI300图形处理单元(GPU)，这是AMD在近三年前推出的NVIDIA GPU竞争对手。这一事实表明，该平台能够产出有用的模型，为AI开发者提供了NVIDIA长期占据的替代方案。

ZAYA1-8B的训练之道

Zyphra所推崇的”智能密度”源于其所谓的”全栈创新”方法，涵盖了架构、预训练和强化学习(RL)。

ZAYA1-8B基于Zyphra专有的MoE++架构构建，该架构在实验室发布的技术报告中有所描述。这种架构对催生大语言模型(LLM)和整个生成式AI时代的标准Transformer架构进行了三项根本性改进：

压缩卷积注意力(CCA)：与标准注意力机制在上下文窗口增大时面临内存挑战不同，CCA在压缩的潜在空间中进行序列混合，相比全多头注意力实现了8倍的KV-cache大小缩减，从而实现更高效的长上下文推理。
ZAYA1 MLP路由器：大多数MoE模型使用线性路由器来决定哪个”专家”处理特定令牌。Zyphra将其替换为更具表现力的多层MLP设计。为保持训练稳定性(这是MoE模型的常见障碍)，他们实施了受经典控制理论PID控制器启发的偏置平衡方案。
学习残差缩放：这控制着数据在模型40层中深入流动时”残差范数”的增长，防止梯度消失或爆炸，且计算开销可忽略不计。

以推理为核心的预训练

ZAYA1-8B的一个关键区别在于推理能力从预训练初期就被集成，而不是在后期训练中”附加”上去。

为了处理原本会超出初始4K预训练上下文的长链式思考(CoT)轨迹，Zyphra开发了答案保留(AP)修剪技术。

可以将AP修剪想象成电影编辑师剪辑长场景：编辑师不会剪掉结尾(解决方案)或完全删除场景，而是移除角色独白中的”中间”部分，同时保留开头(问题设置)和最终揭示(答案)。

这确保模型即使在完整的内部逻辑尚未完全适配内存的情况下，也能学习复杂问题与其解决方案之间的关系。在我的 countertop 污渍去除测试查询中，ZAYA1-8B在Zyphra Cloud上运行时表现良好。

马尔可夫RSA：重新定义测试时计算

模型最显著的性能飞跃来自马尔可夫RSA，一种新颖的测试时计算(TTC)方法。

传统上，如果你想让模型”更深入思考”，就让它生成更长的思维链。然而，这常常导致”上下文膨胀”，即随着历史记录过长，模型失去焦点。

马尔可夫RSA通过将”思考深度”与”上下文大小”解耦来解决这个问题。它类似于递归的科学同行评审过程：

模型生成多个并行的推理轨迹(候选)。
然后仅提取这些轨迹的”尾部”(最后几千个令牌)。
这些尾部经过子采样，并在新的”聚合提示”中呈现给模型，要求它将不同方法协调为更好的解决方案。

通过只传递尾部(通常为4K令牌预算)，模型可以无限推理而不会溢出上下文窗口。实际上，这使得拥有7亿活跃参数的ZAYA1-8B在AIME ’25测试中获得了91.9%的分数，缩小了与活跃参数数量是其30到50倍的模型之间的差距。

由于ZAYA1-8B保持较小的总参数量(84亿)，它特别适合设备端部署和本地LLM应用。对于企业而言，这使得高阶推理能力——传统上仅保留给大型云端模型——可以直接部署到本地硬件或边缘设备上。这种”本地优先”的推理方法解决了企业在数据驻留、延迟以及持久API依赖的高成本方面的常见障碍。

基准测试显示：小模型也能出类拔萃

Zyphra将ZAYA1-8B定位为”出类拔萃”的模型，适合需要高阶推理但不想承担巨大模型延迟或成本的开发者。毕竟，其活跃参数数量远低于其他同类模型，使其在推理运行时更便宜、计算要求更低。

指令遵循：ZAYA1-8B在IFEval上获得85.58分，与Intellect-3(106B)等更大模型保持竞争力。
代理能力：在τ²基准上，模型达到43.12，在BFCL-v4上达到39.22，为其处理工具调用和多轮任务的能力提供了基准。

在单次推理评估(没有额外的”思考”时间)中，ZAYA1-8B已经超越其同级别模型，在数学和代码基准测试中击败Qwen3.5-4B和Gemma-4-E4B。

当启用马尔可夫RSA时，结果令人惊讶：

HMMT ’25(数学)：ZAYA1-8B达到89.6%，超越Claude 4.5 Sonnet(79.2%)和GPT-5-High(88.3%)。
LiveCodeBench(编程)：模型获得69.2%，优于DeepSeek-R1-0528。

Zyphra指出，尽管该模型在算法推理方面是专家，但在”知识密集型”任务(如广泛事实检索MMLU-Pro)上略逊于大型模型，这表明虽然推理可以压缩到更小的核心中，但事实记忆仍受益于原始参数数量。

关注微信号：智享开源 ，可及时获取信息

原文链接：https://venturebeat.com/technology/meet-zaya1-8b-a-super-efficient-open-reasoning-model-trained-on-amd-instinct-mi300-gpus

0 0

评论列表

还没有任何评论，你来说两句吧！

发表评论

为你推荐

迪士尼拟合并多款应用，打造一站式“超级应用

Sakana用7B模型协调GPT-5等：强化学习破解多LLM协同瓶颈

OpenAI API新增语音智能功能，支持实时对话与多语种翻译

Ramp 正在洽谈达到 400 亿美元以上估值，6 个月前刚达到 320 亿美元

OpenAI推出新语音智能功能，API支持实时对话、翻译与转写

Sakana训练7B模型，指挥GPT-5、Claude Sonnet 4与Gemini 2.5 Pro

迪士尼拟打造统一“超级应用”，整合多个平台

迪士尼拟合并多款应用，打造一站式“超级应用

迪士尼拟合并多款应用，打造一站式“超级应用

Sakana用7B模型协调GPT-5等：强化学习破解多LLM协同瓶颈

Sakana用7B模型协调GPT-5等：强化学习破解多LLM协同瓶颈

OpenAI API新增语音智能功能，支持实时对话与多语种翻译

OpenAI API新增语音智能功能，支持实时对话与多语种翻译

Ramp 正在洽谈达到 400 亿美元以上估值，6 个月前刚达到 320 亿美元

Ramp 正在洽谈达到 400 亿美元以上估值，6 个月前刚达到 320 亿美元

OpenAI推出新语音智能功能，API支持实时对话、翻译与转写

OpenAI推出新语音智能功能，API支持实时对话、翻译与转写

Sakana训练7B模型，指挥GPT-5、Claude Sonnet 4与Gemini 2.5 Pro

Sakana训练7B模型，指挥GPT-5、Claude Sonnet 4与Gemini 2.5 Pro

Mark Do Ta的个人站点

Mark Do发布文章557篇

关注微信

近期文章

标签

近期评论

Mark Do 发表在《今天我终于找到了加快网站速度的办法》
mb 发表在《如何成为超级个体？》
mb 发表在《像ChatGPT一样记笔记》
mb 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
mb 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

分类

热门文章

Python Pandas DataFrame append 方法报错原因及解决方法 6,349 人阅

pandas 将多列数据字符串拼接在一起 4,505 人阅

pandas 筛选列数据中包含某个字符串的数据？ 3,506 人阅

要凤凰涅槃须经历一番心灵的洗涤 3,169 人阅

python 如何将电子表格按照某一列相同数据分到一个一个工作表中 2,740 人阅