Stability AI发布Stable Audio 3.0,可生成6分钟专业音乐

Stability AI发布Stable Audio 3.0,可生成6分钟专业音乐

Stability AI推出Stable Audio 3.0系列音频模型

作为Stable Diffusion背后的公司,Stability AI近日发布了全新的音频模型家族——Stable Audio 3.0。该公司宣称,其旗舰模型能够生成长达6分钟以上的专业级音乐作品,标志着音频生成技术在时长与质量上的显著突破。

模型系列与参数配置

Stable Audio 3.0包含四个不同规模的模型,各具参数与适用场景:

  • 小型SFX(459M参数):专为设备端音效与音乐生成设计,支持最长2分钟内容
  • 小型(459M参数):同样适合设备端使用,时长上限为2分钟
  • 中型(1.4B参数):可生成6分20秒的完整作品,保持音乐结构与旋律连贯性
  • 大型(2.7B参数):旗舰模型,支持6分20秒创作,能力最强

生成时长与性能对比

中型与大型模型均能创作长达6分20秒的完整音乐作品,且能保持音乐结构与旋律风格。这一时长是2024年发布的Stable Audio 2.0的两倍以上,显示出模型在长时程生成能力上的飞跃。

模型开源与使用限制

Stability AI将小型SFX、小型及中型模型的权重完全开源,供用户自由使用与修改。而大型模型仅通过API及自托管付费服务提供,年收入超100万美元的企业需申请企业许可,体现了对不同用户群体的差异化服务策略。

行业竞争与版权合作

当前,Google、ElevenLabs等企业也在推进音乐生成模型与工具的研发。但Suno、Udio等公司的版权纠纷表明,数据授权与音乐厂牌合作是这类服务长期生存的关键。Stability AI去年已与华纳音乐集团、环球音乐集团达成合作,其最新音频模型基于完全授权的数据训练,为版权合规性提供了保障。

面向专业音乐人的产品布局

Stability AI正开发面向专业音乐人的产品套件,但未透露具体功能。前环球音频与Fender首席数字官Ethan Kaplan已加入公司,负责领导其专业音乐业务。近期,Suno、ElevenLabs等AI公司也通过聘请音乐行业高管(如Suno聘请前Merlin CEO Jeremy Sirota、ElevenLabs聘请Kobalt高管Derek Cournoyer)提升行业公信力,显示出专业音乐领域对AI技术的需求与认可。


关注微信号:智享开源 ,更多信息访问网站:blog.imcn.me

原文链接:https://techcrunch.com/2026/05/20/stability-ai-release-a-new-audio-model-that-can-create-six-minute-songs/

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章874篇


关注微信

主站最新信息

[blog_mailer_subscribe]

分类