认识ZAYA1-8B：基于AMD Instinct MI300 GPU的高效开源推理模型

当前位置：首页
» 科技 » 认识ZAYA1-8B：基于AMD Instinct MI300 GPU的高效开源推理模型

认识ZAYA1-8B：基于AMD Instinct MI300 GPU的高效开源推理模型

即使像OpenAI和Anthropic这样的领先AI提供商在训练和发布更大、更强大的模型上争夺算力，其他实验室也在走不同路线——追求开发更小、更高效的模型，并常常开源。本周值得关注的新成果来自鲜为人知的帕洛阿尔托创业公司Zyphra，该公司发布了其新的推理、专家混合（MoE）语言模型ZAYA1-8B，参数仅略超80亿，活跃参数仅7.6亿——远少于大实验室估计的数万亿参数。然而，ZAYA1-8B在第三方基准测试中仍能媲美GPT-5-High和DeepSeek-V3的性能。

该模型可从Hugging Face免费下载，采用宽松、标准、适合企业的Apache 2.0许可——企业和独立开发者可以立即开始使用和定制，以满足其需求。个人用户也可以在Zyphra Cloud（该创业公司的推理解决方案）上免费测试。

但真正的头条是ZAYA1-8B的训练硬件：一整套AMD Instinct MI300图形处理单元（GPU），这是AMD在近三年前发布的Nvidia GPU的竞争对手，这表明该平台能够生产有用的模型，并成为近年来Nvidia在AI模型开发者中占据的优先地位的可行替代方案。

ZAYA1-8B的训练方式

Zyphra宣传的“智能密度”是他们所说的“全栈创新”方法的结果，涵盖架构、预训练和强化学习（RL）。

ZAYA1-8B基于Zyphra的专有MoE++架构，该架构在实验室发布的技术报告中有所描述。该架构对催生大语言模型（LLMs）和整个生成式AI时代的标准Transformer架构进行了三项根本性改进：

压缩卷积注意力（CCA）：与随着上下文窗口增大而面临内存挑战的标准注意力机制不同，CCA在压缩的潜在空间中执行序列混合。这使KV缓存大小比全多头注意力减少8倍，从而实现更高效的长上下文推理。
ZAYA1 MLP路由器：大多数MoE模型使用线性路由器来决定哪个“专家”处理特定token。Zyphra将其替换为更具表现力的多层MLP设计。为保持训练稳定性（MoE的常见障碍），他们实施了受经典控制理论中PID控制器启发的偏置平衡方案。
学习残差缩放：这控制着数据流经模型40层时“残差范数”的增长，防止梯度消失或爆炸，且计算开销可忽略不计。