会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频!

谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

时间:2024-07-02 04:13:13 来源:带水拖泥网 作者:电商 阅读:250次

谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

划重点:

⭐️ 谷歌推出多模态视频模型 VLOGGER,谷歌能够自动生成带语音、推多丰富动作的模态模型人物视频。

⭐️ VLOGGER 采用全新多阶段扩散模型架构,视频结合文本生成图像模型和时空控制,自作视提升视频生成逼真效果。动生

⭐️ VLOGGER 在多个数据集上进行综合测试,成丰表现出色,富动并不需要重新训练模型即可生成完整目标图像。谷歌

CSS站长资源(ChinaZ.com) 4月2日 消息:谷歌的推多研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型,能够自动生成带语音、模态模型丰富动作的视频人物视频。用户只需向 VLOGGER 输入图像和语音,自作视就可以获得逼真的动生视频效果。

VLOGGER 的成丰创新之处在于采用了全新的多阶段扩散模型架构,结合了文本生成图像模型和时空控制,从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试,结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

要制作逼真的人物动画视频通常需要大量的人工调整和修补,以确保动作流畅自然。而 VLOGGER 的创新之处在于,其无需针对每个新人物重新训练模型,也不依赖于人脸检测框选区域,直接生成完整目标图像。此外,VLOGGER 还考虑到了现实中复杂的交流场景,如可见躯干、不同身份等因素,这对正确合成有效交流的人物动作至关重要。

在技术实现方面,VLOGGER 首先通过 Transformer 神经网络处理音频波形输入,生成一系列3D 面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。其次,在空间和时间上进行条件控制,生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性。为了提高生成效果,VLOGGER 还采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高质量的影像。

VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。

产品入口:https://top.aibase.com/tool/vlogger

技术报告:https://enriccorona.github.io/vlogger/paper.pdf

(责任编辑:小程序)

相关内容
  • 河北一女子充话费 1000元误充给对方要不回:中国电信、律师回应
  • 马斯克称特斯拉正精简销售交付体系
  • 日产汽车公布全固态电池试生产场所:明年开始生产
  • 通义千问开源基于Qwen1.5的代码模型CodeQwen1.5
  • 安徽男子开小飞机带女儿回家过年:是飞行教员 比开车快2个多小时
  • 雷军30天涨粉超450万,汽车圈大佬组团做网红
  • 男子给电瓶车飞线充电引发火灾被行拘:明知故犯 网友喊话应严惩
  • 周鸿祎力挺手机支架 喊话余承东:手机在老婆手里 你能专心开车吗
推荐内容
  • 两乘客买到“同日同座”高铁票 12306官方解释原因
  • 华为加入1英寸俱乐部!影像Pura 70 Ultra回归
  • 天工SkyMusic音乐大模型开启公测  天工SkyMusic在哪访问?附天工SkyMusic下载地址
  • 小女孩上学放学考勤照判若两人 展示截然不同两种状态
  • 即日起,1688支持七天无理由退货
  • 调休连放5天!五一假期首日火车票今日开售 12306回应开票秒没