EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频-带水拖泥网

当前位置：首页 > 小程序 > EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频正文

EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

时间：2024-07-02 04:03:34 来源：带水拖泥网作者：电商阅读：923次

EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

CSS站长资源（ChinaZ.com）4月18日消息:由微软亚洲研究院开发的同图片VASA-1项目，是款微口型可生一项前沿的人工智能技术，它能够将单一静态图像和一段语音音频转换为逼真的软发软件对话面部动画。这项技术不仅能够实现音频与唇部动作的布对精确同步，还能够捕捉并再现丰富的加语面部表情和自然的头部动作，极大地增强了生成视频的音即真实感和生动性。

主要功能与特点:

逼真的成逼面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频，包括精确的真说唇部运动同步和复杂的面部表情及头部动作。

高度自然的话视头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动，这些都是同图片人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU，款微口型可生VASA-1能够实现高性能的软发软件视频生成。它支持在离线模式下以45fps生成512×512分辨率的布对视频，以及在线流模式下的加语40fps生成速度，前置延迟仅为170毫秒，音即适合实时应用。

泛化能力: 模型展现出强大的适应能力，即使面对与训练数据不同的音频或图像，如不同的语言或非常规的艺术照片，也能够有效工作。

支持多种语言: VASA-1不仅支持中文，还能处理多种语言的语音输入，甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征，如嘴唇运动、表情、眼睛注视方向等，提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号，如眼睛注视方向、头部距离和情绪偏移，VASA-1增强了视频生成的可控性，允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术，包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文，以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像，除了蒙娜丽莎外，都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。