Stability AI发布Stable Audio 3.0,可生成6分钟专业音乐

Stability AI推出Stable Audio 3.0系列音频模型
作为Stable Diffusion背后的公司,Stability AI近日发布了全新的音频模型家族——Stable Audio 3.0。该公司宣称,其旗舰模型能够生成长达6分钟以上的专业级音乐作品,标志着音频生成技术在时长与质量上的显著突破。
模型系列与参数配置
Stable Audio 3.0包含四个不同规模的模型,各具参数与适用场景:
- 小型SFX(459M参数):专为设备端音效与音乐生成设计,支持最长2分钟内容
- 小型(459M参数):同样适合设备端使用,时长上限为2分钟
- 中型(1.4B参数):可生成6分20秒的完整作品,保持音乐结构与旋律连贯性
- 大型(2.7B参数):旗舰模型,支持6分20秒创作,能力最强
生成时长与性能对比
中型与大型模型均能创作长达6分20秒的完整音乐作品,且能保持音乐结构与旋律风格。这一时长是2024年发布的Stable Audio 2.0的两倍以上,显示出模型在长时程生成能力上的飞跃。
模型开源与使用限制
Stability AI将小型SFX、小型及中型模型的权重完全开源,供用户自由使用与修改。而大型模型仅通过API及自托管付费服务提供,年收入超100万美元的企业需申请企业许可,体现了对不同用户群体的差异化服务策略。
行业竞争与版权合作
当前,Google、ElevenLabs等企业也在推进音乐生成模型与工具的研发。但Suno、Udio等公司的版权纠纷表明,数据授权与音乐厂牌合作是这类服务长期生存的关键。Stability AI去年已与华纳音乐集团、环球音乐集团达成合作,其最新音频模型基于完全授权的数据训练,为版权合规性提供了保障。
面向专业音乐人的产品布局
Stability AI正开发面向专业音乐人的产品套件,但未透露具体功能。前环球音频与Fender首席数字官Ethan Kaplan已加入公司,负责领导其专业音乐业务。近期,Suno、ElevenLabs等AI公司也通过聘请音乐行业高管(如Suno聘请前Merlin CEO Jeremy Sirota、ElevenLabs聘请Kobalt高管Derek Cournoyer)提升行业公信力,显示出专业音乐领域对AI技术的需求与认可。
关注微信号:智享开源 ,更多信息访问网站:blog.imcn.me

关注微信

还没有任何评论,你来说两句吧!