认识ZAYA1-8B:基于AMD Instinct MI300 GPU的高效开源推理模型
即使像OpenAI和Anthropic这样的领先AI提供商在训练和发布更大、更强大的模型上争夺算力,其他实验室也在走不同路线——追求开发更小、更高效的模型,并常常开源。本周值得关注的新成果来自鲜为人知的帕洛阿尔托创业公司Zyphra,该公司发布了其新的推理、专家混合(MoE)语言模型ZAYA1-8B,参数仅略超80亿,活跃参数仅7.6亿——远少于大实验室估计的数万亿参数。然而,ZAYA1-8B在第三方基准测试中仍能媲美GPT-5-High和DeepSeek-V3的性能。
该模型可从Hugging Face免费下载,采用宽松、标准、适合企业的Apache 2.0许可——企业和独立开发者可以立即开始使用和定制,以满足其需求。个人用户也可以在Zyphra Cloud(该创业公司的推理解决方案)上免费测试。
但真正的头条是ZAYA1-8B的训练硬件:一整套AMD Instinct MI300图形处理单元(GPU),这是AMD在近三年前发布的Nvidia GPU的竞争对手,这表明该平台能够生产有用的模型,并成为近年来Nvidia在AI模型开发者中占据的优先地位的可行替代方案。
ZAYA1-8B的训练方式
Zyphra宣传的“智能密度”是他们所说的“全栈创新”方法的结果,涵盖架构、预训练和强化学习(RL)。
ZAYA1-8B基于Zyphra的专有MoE++架构,该架构在实验室发布的技术报告中有所描述。该架构对催生大语言模型(LLMs)和整个生成式AI时代的标准Transformer架构进行了三项根本性改进:
- 压缩卷积注意力(CCA):与随着上下文窗口增大而面临内存挑战的标准注意力机制不同,CCA在压缩的潜在空间中执行序列混合。这使KV缓存大小比全多头注意力减少8倍,从而实现更高效的长上下文推理。
- ZAYA1 MLP路由器:大多数MoE模型使用线性路由器来决定哪个“专家”处理特定token。Zyphra将其替换为更具表现力的多层MLP设计。为保持训练稳定性(MoE的常见障碍),他们实施了受经典控制理论中PID控制器启发的偏置平衡方案。
- 学习残差缩放:这控制着数据流经模型40层时“残差范数”的增长,防止梯度消失或爆炸,且计算开销可忽略不计。
推理优先预训练
一个关键区别……
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信

近期评论
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!