比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作-带水拖泥网

当前位置：首页 > 知识 > 比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作正文

比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

时间：2024-07-02 04:03:19 来源：带水拖泥网作者：深度阅读：627次

比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

划重点:

🔍 最新的比对对话形象生成模型在实现与音频的逼真准确的唇同步方面取得了进展，但在控制和传达形象的口型细节表情和情感方面仍有不足。

🔍 InstructAvatar 提供了对情感和面部动作进行细粒度控制的还牛文本引导方法，为生成具有情感表达的实现生成2D 虚拟形象提供了改进的互动性和泛化能力。

🔍 实验结果表明，文字InstructAvatar 在细粒度情感控制、指定口型同步质量和自然性方面优于现有方法，面部能指定面部的表动作表情和动作。

CSS站长资源(ChinaZ.com) 5月28日消息:最近，情和对话形象生成模型在实现与音频的比对逼真准确口型同步方面取得了进展，但在控制和传达形象的口型细节表情和情感方面仍有不足，使生成的还牛视频缺乏生动性和可控性。

因此，实现生成北京大学的文字研究团队提出了一种名为 InstructAvatar 的新颖方法，通过自然语言界面来控制虚拟形象的指定情感和面部动作，从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括：

通过自然语言输入控制头像的情绪和面部动作。
利用一个自动注释管道构建训练数据集，使得头像可以根据文本指令和音频进行生成。
生成的头像能够准确同步口型，表情自然且生动。
相比于现有方法，在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。

InstructAvatar 的框架包括两个组件:变分自动编码器（VAE）和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦，并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中，通过迭代去噪高斯噪声来获取预测的动作潜变量，并结合用户提供的肖像，使用 VAE 的解码器生成最终的视频。

通过与基线模型的定性比较，可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外，模型生成的结果具有增强的自然性，并有效地保留了身份特征。

值得一提的是，该模型仅基于文本输入推断说话的情感，这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围，超出了大多数基线模型的范围。

此外，该模型展现了精确的情感控制能力，并生成了自然的结果。InstructAvatar 具有细粒度的控制能力，并在领域之外的场景中表现出良好的泛化能力。

项目入口：https://top.aibase.com/tool/instructavatar

(责任编辑：短视频)

[1]

[2]

[3]

上一篇：开源AI拯救Meta一夜飙升1960亿刀，39岁小扎爬出元宇宙深坑！年分红7个亿，靠Llama赢麻了
下一篇：挖奔驰宝马销售提销量！蔚来1月交付10055辆同比增18.2%