谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频
划重点:
⭐️ 谷歌推出多模态视频模型 VLOGGER,谷歌能够自动生成带语音、推多丰富动作的模态模型人物视频。
⭐️ VLOGGER 采用全新多阶段扩散模型架构,视频结合文本生成图像模型和时空控制,自作视提升视频生成逼真效果。动生
⭐️ VLOGGER 在多个数据集上进行综合测试,成丰表现出色,富动并不需要重新训练模型即可生成完整目标图像。谷歌
CSS站长资源(ChinaZ.com) 4月2日 消息:谷歌的推多研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型,能够自动生成带语音、模态模型丰富动作的视频人物视频。用户只需向 VLOGGER 输入图像和语音,自作视就可以获得逼真的动生视频效果。
VLOGGER 的成丰创新之处在于采用了全新的多阶段扩散模型架构,结合了文本生成图像模型和时空控制,从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试,结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。
要制作逼真的人物动画视频通常需要大量的人工调整和修补,以确保动作流畅自然。而 VLOGGER 的创新之处在于,其无需针对每个新人物重新训练模型,也不依赖于人脸检测框选区域,直接生成完整目标图像。此外,VLOGGER 还考虑到了现实中复杂的交流场景,如可见躯干、不同身份等因素,这对正确合成有效交流的人物动作至关重要。
在技术实现方面,VLOGGER 首先通过 Transformer 神经网络处理音频波形输入,生成一系列3D 面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。其次,在空间和时间上进行条件控制,生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性。为了提高生成效果,VLOGGER 还采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高质量的影像。
VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。
产品入口:https://top.aibase.com/tool/vlogger
技术报告:https://enriccorona.github.io/vlogger/paper.pdf
(责任编辑:小程序)
- ·微信新安装包突破700MB 官方宣布推出龙年头像、送福壁纸
- ·骁龙8s Gen3旗舰!moto Edge 50 Ultra发布:7700元
- ·37%专业人士使用生成式AI工具每周节省 5-10 小时
- ·国产游戏扛鼎之作!《黑神话:悟空》8月20日发售 欧美服商店已开放
- ·怕不怕:调查称单身更容易使人变傻、死亡率更高
- ·华为问界新M5今天开放预定:消息称已快速突破6000单
- ·2txt官网地址入口 AI在线OCR工具识别图片中文字如何使用
- ·华为高阶智驾ADS 2.0首车 余承东:问界新M5开启预订
- ·反转与否不重要!《人民日报》评奔驰车男子:打砸引擎盖就是错 路怒损人害己
- ·法行宝体验入口 百度AI法律服务平台使用地址