会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 AI视频进入有声时代!谷歌发布视频生成音频技术,效果丝滑惊艳网友!!

AI视频进入有声时代!谷歌发布视频生成音频技术,效果丝滑惊艳网友!

时间:2024-06-30 00:48:23 来源:带水拖泥网 作者:电商 阅读:421次

AI视频进入有声时代!谷歌发布视频生成音频技术,效果丝滑惊艳网友!

声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),视频时代视频生成丝滑作者:左卡,进入技术惊艳授权CSS站长资源转载发布。有声音频

Runway前脚刚发布Gen-3Alpha,谷歌Google后脚就跟了个王炸。发布

北京时间6月18日凌晨,效果Google Deepmind发布了视频生成音频(Video-to-Audio,网友V2A)技术的视频时代视频生成丝滑进展,可以为视频创建戏剧性的进入技术惊艳背景音乐,逼真的有声音频音效,甚至是谷歌人物之间的对话。

V2A技术支持为AI生成视频“配乐”,发布Google还特别强调了官网发布的效果Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造。

有不少网友表示,网友这下终于可以给用Luma生成的视频时代视频生成丝滑meme视频配上声音了!

从Google Deepmind官网发布的Blog上看,V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。

首先,V2A会对视频和文本提示进行编码,并通过扩散模型迭代运行,将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频,最后再对音频进行解码并与视频数据相结合。

X网友纷纷表示太赞了,但就是有一个小小小小的问题,和同样是凌晨发布的Runway的视频生成模型Gen-3Alpha一样,这又是一个大家都用不上的超赞模型,到底啥时候开源让咱们试试水!

先不急,我们先尝尝官方发布的Demo咸淡!

Google认为,AI视频生成模型飞速发展,但市面上的大多数模型,不管是Sora、Luma,还是刚刚发布的Gen-3Alpha,都只能生成无声视频。

而Google所研发的V2A技术能够使AI视频进入“有声时代”,进一步推动AI在视听方面的完善与发展。

从Demo视频来看,其效果真的挺丝滑的,怪不得Google“夸下海口”!

比如这个,画面中一个人从前走到后,可以听到令人不安的背景音乐和嘎吱嘎吱的脚步声。

【提示:电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete】

诸如此类的视频配乐还有小恐龙破壳的声音、打鼓的音乐声、车流声等等。

【提示:可爱的小恐龙鸣叫、丛林氛围、鸡蛋破裂。Prompt for audio: Cute baby dinosaur chirps, jungle ambience, egg cracking】

【提示:音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围。Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd】

【提示:汽车打滑、汽车发动机节流、天使般的电子音乐。Prompt for audio: cars skidding, car engine throttling, angelic electronic music】

Google还强调,V2A技术之所以能够在卷得要命的AI视频圈“脱颖而出”,是因为该技术可以理解原始像素,因而哪怕不输入文本提示,只要用户提供视频,该技术也可以为其“配乐”。

例如,下面视频中的吉他声和自行车声是在没有任何提示的情况下合成的。

V2A技术也可以生成人物对话,比如下面视频中角色所说的台词,“这只火鸡看起来棒极了,我好饿啊(this turkey looks amazing, I'm so hungry)”。

不过从视频中看,人物唇形与台词并不完全匹配,因为视频模型不会生成与转录文本相匹配的嘴部动作,Google也承认这一部分仍在研究完善当中。

此外,V2A技术还支持为视频输入生成无限数量的音轨,用户可以选择定义“正提示”来引导生成所需的声音,或定义“负提示”来引导远离不需要的声音。

这种灵活性使用户能够更好地控制V2A的音频输出,从而可以快速尝试不同的音频输出,并选择最佳匹配。

下面三个视频是Google放出的Demo,我们猜测Google是想说明用户可以用不同的文本提示来定向地修改配乐中的一些要素,不过好像不太明显

【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻感。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

【提示:空灵的大提琴氛围。Prompt for audio: Ethereal cello atmosphere】

【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻效果。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

虽然该技术还未开源,但从现有的Demo来看,待其开源之时,必将又掀起AI视频圈一阵大风浪。

届时我们估计能看到AI圈“大混战”——Runway的Gen-3Alpha刚生成一个视频,隔壁V2A就给它把音乐配好了;Meme变视频还没玩够呢,用户们已经等不及给它配上声音了。

AI视频圈,到底要“卷”成什么样?!

(责任编辑:资讯)

相关内容
  • 专家称调休假装上班 不如真实放假上热搜:中国人年休假天数全球倒数第三
  • 智心云言体验入口 AI智能对话与绘画工具在线使用地址
  • 字节跳动推“Coze 扣子”AI Bot 开发平台 用户可搭建自己的聊天机器人
  • 景区公厕需扫码才能进?游客傻眼 官方回应:将协商改进
  • “云养老”的年轻人,再次爱上鉴宝直播
  • 医疗博主发布女性隆胸视频被处罚:已删除相关视频
  • 分析数百个涨粉新星,我找到了小红书内容赛道的3个趋势
  • 周星驰短剧商标已被申请注册 《金猪玉叶》预计 5 月在抖音上线
推荐内容
  • 网友实拍暴雪冻雨压断树枝!武汉铁路:不要贸然前往火车站
  • 阿里推自主多模态AI代理MobileAgent 可模拟人类操作手机
  • 大熊猫性感抖臀致直播间被封十分钟 人工智能「直播」AI应用有哪些?
  • 河南鹅毛大雪满天飞 积雪脚脖子深:专家提醒安全出行
  • 2299元 Redmi K70首降价:2K屏 骁龙8 Gen2在同档位绝无仅有
  • 骁龙8 Gen3小屏!三星Galaxy S24首销直降500元