开源音频模型Stable Audio Open,文本生成47秒高清音效
声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),开源作者:AIGC开放社区,音频音效授权CSS站长资源转载发布。模型
6月6日,本生著名开源大模型平台Stability.ai在官网宣布,成秒开源最新文生音频模型Stable Audio Open。高清
用户通过文本就能生成最多47秒,开源钢琴、音频音效笛子、模型鼓点、本生模拟人声等不同类型的成秒44.1kHz音效。
值得一提的高清是,Stable Audio Open支持数据微调,开源歌手、音频音效音乐人可以让其生成基于自己的模型音乐数据,例如,架子鼓手可以根据自己的鼓点来进行微调。
开源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0
在线demo:https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero
根据Stability.ai介绍,Stable Audio Open使用了486,492个录音训练数据,其中472,618个来自Freesound,13874个来自免费音乐档案馆,并且所有音频文件均根据 CC0、CC BY或CC Sampling+获得了商业许可。
就是说通过Stable Audio Open生成的音效无需担心商业化问题,不会受到法律方面的追究。
「AIGC开放社区」根据其提供的在线demo体验了一下,在文本语义理解、生成音效等方面还是相当优秀。
需要注意的是,目前只支持英文提示词,其他任何语言都不行,即便你使用了识别效果也是相当的差。
在生成的过程中,用户可以对时间、扩散步数和CFG进行详细控制,以达到更好的效果。例如,一首非常舒适抒情的钢琴曲。
此外,Stable Audio Open目前只能用于学术研究,还无法商业化。
(责任编辑:资讯)
- ·iPhone年收入占智能手机市场50% 年收入达 2030 亿美元
- ·李国庆喊话宗馥莉:格局要大 网友吐槽道德绑架
- ·去年315晚会曝光企业现状:有主播解封继续带货,有的被罚200万
- ·最听劝伞老板爆火:一年卖了100多万把伞 业绩翻10倍
- ·女子直播被指虐猫后直接放嘴里咬 网友愤慨:行为不人道
- ·多地中通快递严重积压 官方回应:整体网络运营稳定
- ·GPT-4.5 Turbo意外曝光 最快明天发布!OpenAI将再次引领AI行业
- ·169万粉丝网红“粥饼伦”回应曾签约MCN:不愿直播带货
- ·文心一言APP一键生成专属数字分身 iOS和Android用户免费用
- ·机器人ChatGPT来了,80亿参数、前OpenAI人员经数年打造