会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频!

阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

时间:2024-07-04 04:35:53 来源:带水拖泥网 作者:自媒体 阅读:199次

阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

要点:

  • 阿里提出了EMO框架,阿里可根据单张图像和声音生成具有表情丰富的推声头像视频。

  • 方法包括两个主要阶段:帧编码和扩散过程,画同利用多种注意机制和时间模块实现头像生成。步框

  • EMO支持多语言歌曲和不同风格的架E即头像生成,可应用于歌唱、张图对话和跨角色表演等领域。片加频

CSS站长资源(ChinaZ.com)2月28日 消息:近期,音频阿里巴巴智能计算研究所提出了一种新的生成生成式框架EMO,只需输入图片和音频即可生成具有表现力的对口视频,而且视频中的型视嘴型还可以与声音匹配。这项技术支持多语言、阿里对话、推声唱歌以及快速语速的画同适配,但也可能成为造假的步框利器,因此一些名人可能需要警惕了。

该框架包含两个主要阶段,首先是帧编码阶段,利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段,通过预训练的音频编码器处理声音嵌入,并结合多帧噪声和面部区域掩码来生成头像。在此过程中,采用了两种注意机制(参考注意和音频注意)和时间模块,以保持角色身份并调节运动速度。

项目地址:https://top.aibase.com/tool/emo

EMO不仅支持多语言歌曲和不同风格的头像生成,还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频,并保持角色的身份特征在长时间内的稳定性。此外,EMO还展示了在快节奏音乐中保持与音频同步的能力,确保角色动画的表现力和动态性。

这一研究对于头像视频生成领域具有重要意义,为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业,还可以在学术研究和教育培训等领域发挥重要作用。然而,需要注意的是,该框架目前仅用于学术研究和效果演示,还有待进一步优化和扩展其应用范围。

(责任编辑:自媒体)

相关内容
  • 谷歌计划推出订阅服务Bard Advanced
  • 贾跃亭回应负面评价:称终有一天FF会回到中国
  • 贾跃亭回应负面评价:称终有一天FF会回到中国
  • 全栈自研!一文了解小米SU7 Pro标配的小米智驾Max
  • 泰国小镇被3500只猴子占据 昔日繁荣已荡然无存
  • 有卖家因制作捏捏致身体不适闭店 专家:甲醛浓度可能超标
  • Suno 融资 1.25 亿美元,成为音乐创作领域的 “ChatGPT”
  • 官宣!腾讯全面下调大模型价格 混元-lite免费
推荐内容
  • 你会玩吗 周鸿祎称掼蛋对个人社交很重要
  • IBM加倍投入企业AI,发布 Watsonx 助手、模型更新
  • 官宣!腾讯全面下调大模型价格 混元-lite免费
  • 跳出三农看“鸵鸟”,腰部达人商业变现的另一种可能
  • 一个解绳子的游戏,怎么就迅速千万月流水了?
  • 笑死!我用Coze图像流给马老板来了一套汤姆梦中情猫写真 附Coze保姆级教程