会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 比对口型还牛!InstructAvatar:实现文字生成指定面部的表情和动作!

比对口型还牛!InstructAvatar:实现文字生成指定面部的表情和动作

时间:2024-07-02 04:03:19 来源:带水拖泥网 作者:深度 阅读:627次

比对口型还牛!InstructAvatar:实现文字生成指定面部的表情和动作

划重点:

🔍 最新的比对对话形象生成模型在实现与音频的逼真准确的唇同步方面取得了进展,但在控制和传达形象的口型细节表情和情感方面仍有不足。

🔍 InstructAvatar 提供了对情感和面部动作进行细粒度控制的还牛文本引导方法,为生成具有情感表达的实现生成2D 虚拟形象提供了改进的互动性和泛化能力。

🔍 实验结果表明,文字InstructAvatar 在细粒度情感控制、指定口型同步质量和自然性方面优于现有方法,面部能指定面部的表动作表情和动作。

CSS站长资源(ChinaZ.com) 5月28日 消息:最近,情和对话形象生成模型在实现与音频的比对逼真准确口型同步方面取得了进展,但在控制和传达形象的口型细节表情和情感方面仍有不足,使生成的还牛视频缺乏生动性和可控性。

因此,实现生成北京大学的文字研究团队提出了一种名为 InstructAvatar 的新颖方法,通过自然语言界面来控制虚拟形象的指定情感和面部动作,从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括:

  • 通过自然语言输入控制头像的情绪和面部动作。

  • 利用一个自动注释管道构建训练数据集,使得头像可以根据文本指令和音频进行生成。

  • 生成的头像能够准确同步口型,表情自然且生动。

  • 相比于现有方法,在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。

InstructAvatar 的框架包括两个组件:变分自动编码器(VAE)和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦,并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中,通过迭代去噪高斯噪声来获取预测的动作潜变量,并结合用户提供的肖像,使用 VAE 的解码器生成最终的视频。

通过与基线模型的定性比较,可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外,模型生成的结果具有增强的自然性,并有效地保留了身份特征。

值得一提的是,该模型仅基于文本输入推断说话的情感,这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围,超出了大多数基线模型的范围。

此外,该模型展现了精确的情感控制能力,并生成了自然的结果。InstructAvatar 具有细粒度的控制能力,并在领域之外的场景中表现出良好的泛化能力。

项目入口:https://top.aibase.com/tool/instructavatar

(责任编辑:短视频)

相关内容
  • 一高铁因超载无法运行 网友:这场景只有春运才能见到吧
  • 苹果或将线上发布新品2024 款 iPad 和 Mac 无春季发布会
  • 大熊猫福宝将回国!姜爷爷和宋爷爷哭成泪人
  • 头部电商平台纷纷投入AI电商领域 阿里开发AI电商产品“绘蛙”
  • 奇瑞辟谣奔驰车主砸车定损5200元 实际花费4100元
  • 中国摄像头1月线上销量罕见大涨54.6%!小米 断层式领先
  • Vercel AI SDK 3.0官网体验入口 生成式UI软件开发工具包使用方法教程指南
  • 女程序员下班后造了一座植物园:看到了生活中的美好与希望
推荐内容
  • 我妈是董明珠节目由王自如策划引热议!员工自曝格力滞销产品溢价三倍卖大家
  • 大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
  • 微信上能用钉钉开会了!微信已接入钉钉会议
  • 《第二十条》延长上映至4月10日 票房逼近23亿
  • 驴妈妈回应解散 AI人工智能「旅游」应用有哪些?
  • 大熊猫福宝将回国!姜爷爷和宋爷爷哭成泪人