Stability AI发布Stable Audio 3.0，可生成6分钟专业音乐

Stability AI推出Stable Audio 3.0系列音频模型

作为Stable Diffusion背后的公司，Stability AI近日发布了全新的音频模型家族——Stable Audio 3.0。该公司宣称，其旗舰模型能够生成长达6分钟以上的专业级音乐作品，标志着音频生成技术在时长与质量上的显著突破。

模型系列与参数配置

Stable Audio 3.0包含四个不同规模的模型，各具参数与适用场景：

小型SFX（459M参数）：专为设备端音效与音乐生成设计，支持最长2分钟内容
小型（459M参数）：同样适合设备端使用，时长上限为2分钟
中型（1.4B参数）：可生成6分20秒的完整作品，保持音乐结构与旋律连贯性
大型（2.7B参数）：旗舰模型，支持6分20秒创作，能力最强

生成时长与性能对比

中型与大型模型均能创作长达6分20秒的完整音乐作品，且能保持音乐结构与旋律风格。这一时长是2024年发布的Stable Audio 2.0的两倍以上，显示出模型在长时程生成能力上的飞跃。

模型开源与使用限制

Stability AI将小型SFX、小型及中型模型的权重完全开源，供用户自由使用与修改。而大型模型仅通过API及自托管付费服务提供，年收入超100万美元的企业需申请企业许可，体现了对不同用户群体的差异化服务策略。

行业竞争与版权合作

当前，Google、ElevenLabs等企业也在推进音乐生成模型与工具的研发。但Suno、Udio等公司的版权纠纷表明，数据授权与音乐厂牌合作是这类服务长期生存的关键。Stability AI去年已与华纳音乐集团、环球音乐集团达成合作，其最新音频模型基于完全授权的数据训练，为版权合规性提供了保障。

面向专业音乐人的产品布局

Stability AI正开发面向专业音乐人的产品套件，但未透露具体功能。前环球音频与Fender首席数字官Ethan Kaplan已加入公司，负责领导其专业音乐业务。近期，Suno、ElevenLabs等AI公司也通过聘请音乐行业高管（如Suno聘请前Merlin CEO Jeremy Sirota、ElevenLabs聘请Kobalt高管Derek Cournoyer）提升行业公信力，显示出专业音乐领域对AI技术的需求与认可。

关注微信号：智享开源 ，更多信息访问网站：blog.imcn.me

原文链接：https://techcrunch.com/2026/05/20/stability-ai-release-a-new-audio-model-that-can-create-six-minute-songs/