认识ZAYA1-8B:基于AMD Instinct MI300 GPU的高效开源推理模型

即使像OpenAI和Anthropic这样的领先AI提供商在训练和发布更大、更强大的模型上争夺算力,其他实验室也在走不同路线——追求开发更小、更高效的模型,并常常开源。本周值得关注的新成果来自鲜为人知的帕洛阿尔托创业公司Zyphra,该公司发布了其新的推理、专家混合(MoE)语言模型ZAYA1-8B,参数仅略超80亿,活跃参数仅7.6亿——远少于大实验室估计的数万亿参数。然而,ZAYA1-8B在第三方基准测试中仍能媲美GPT-5-High和DeepSeek-V3的性能。

该模型可从Hugging Face免费下载,采用宽松、标准、适合企业的Apache 2.0许可——企业和独立开发者可以立即开始使用和定制,以满足其需求。个人用户也可以在Zyphra Cloud(该创业公司的推理解决方案)上免费测试。

但真正的头条是ZAYA1-8B的训练硬件:一整套AMD Instinct MI300图形处理单元(GPU),这是AMD在近三年前发布的Nvidia GPU的竞争对手,这表明该平台能够生产有用的模型,并成为近年来Nvidia在AI模型开发者中占据的优先地位的可行替代方案。

ZAYA1-8B的训练方式

Zyphra宣传的“智能密度”是他们所说的“全栈创新”方法的结果,涵盖架构、预训练和强化学习(RL)。

ZAYA1-8B基于Zyphra的专有MoE++架构,该架构在实验室发布的技术报告中有所描述。该架构对催生大语言模型(LLMs)和整个生成式AI时代的标准Transformer架构进行了三项根本性改进:

  • 压缩卷积注意力(CCA):与随着上下文窗口增大而面临内存挑战的标准注意力机制不同,CCA在压缩的潜在空间中执行序列混合。这使KV缓存大小比全多头注意力减少8倍,从而实现更高效的长上下文推理。
  • ZAYA1 MLP路由器:大多数MoE模型使用线性路由器来决定哪个“专家”处理特定token。Zyphra将其替换为更具表现力的多层MLP设计。为保持训练稳定性(MoE的常见障碍),他们实施了受经典控制理论中PID控制器启发的偏置平衡方案。
  • 学习残差缩放:这控制着数据流经模型40层时“残差范数”的增长,防止梯度消失或爆炸,且计算开销可忽略不计。

推理优先预训练

一个关键区别……

原文链接:https://venturebeat.com/technology/meet-zaya1-8b-a-super-efficient-open-reasoning-model-trained-on-amd-instinct-mi300-gpus


关注微信号:智享开源 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章540篇


关注微信

分类