谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频-带水拖泥网

当前位置：首页 > 短视频 > 谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频正文

谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

时间：2024-07-02 04:13:13 来源：带水拖泥网作者：电商阅读：250次

谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

划重点:

⭐️ 谷歌推出多模态视频模型 VLOGGER，谷歌能够自动生成带语音、推多丰富动作的模态模型人物视频。

⭐️ VLOGGER 采用全新多阶段扩散模型架构，视频结合文本生成图像模型和时空控制，自作视提升视频生成逼真效果。动生

⭐️ VLOGGER 在多个数据集上进行综合测试，成丰表现出色，富动并不需要重新训练模型即可生成完整目标图像。谷歌

CSS站长资源(ChinaZ.com) 4月2日消息:谷歌的推多研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型，能够自动生成带语音、模态模型丰富动作的视频人物视频。用户只需向 VLOGGER 输入图像和语音，自作视就可以获得逼真的动生视频效果。

VLOGGER 的成丰创新之处在于采用了全新的多阶段扩散模型架构，结合了文本生成图像模型和时空控制，从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试，结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色，同时还能生成丰富的上半身和手势动作。

要制作逼真的人物动画视频通常需要大量的人工调整和修补，以确保动作流畅自然。而 VLOGGER 的创新之处在于，其无需针对每个新人物重新训练模型，也不依赖于人脸检测框选区域，直接生成完整目标图像。此外，VLOGGER 还考虑到了现实中复杂的交流场景，如可见躯干、不同身份等因素，这对正确合成有效交流的人物动作至关重要。

在技术实现方面，VLOGGER 首先通过 Transformer 神经网络处理音频波形输入，生成一系列3D 面部表情和身体姿势参数，用于控制虚拟人物在视频中的动作。其次，在空间和时间上进行条件控制，生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术，允许模型迭代生成任意长度的视频片段，同时保持时序一致性。为了提高生成效果，VLOGGER 还采用了级联扩散方法，对基础分辨率的视频进行超分辨重建，生成高质量的影像。

VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

产品入口:https://top.aibase.com/tool/vlogger

技术报告:https://enriccorona.github.io/vlogger/paper.pdf

(责任编辑：小程序)

[1]

[2]

[3]

上一篇：教你用AI制作微信红包封面，分分钟躺赚千元（附红包封面）
下一篇：直逼GPT-4开源模型大泄漏，AI社区炸锅！Mistral CEO自曝是旧模型，OpenAI再败一局？