会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频!

EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

时间:2024-07-02 04:03:34 来源:带水拖泥网 作者:电商 阅读:923次

EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

CSS站长资源(ChinaZ.com)4月18日 消息:由微软亚洲研究院开发的同图片VASA-1项目,是款微口型可生一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的软发软件对话面部动画。这项技术不仅能够实现音频与唇部动作的布对精确同步,还能够捕捉并再现丰富的加语面部表情和自然的头部动作,极大地增强了生成视频的音即真实感和生动性。

主要功能与特点:

逼真的成逼面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的真说唇部运动同步和复杂的面部表情及头部动作。

高度自然的话视头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是同图片人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU,款微口型可生VASA-1能够实现高性能的软发软件视频生成。它支持在离线模式下以45fps生成512×512分辨率的布对视频,以及在线流模式下的加语40fps生成速度,前置延迟仅为170毫秒,音即适合实时应用。

泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。

支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。

项目地址:https://top.aibase.com/tool/vasa-1

论文地址:https://arxiv.org/abs/2404.10667

(责任编辑:小程序)

相关内容
  • 混合现实社交平台Wooorld 将3D世界地图带入用户的房间
  • 1月销量环比大跌3成  零跑汽车官宣全系降价
  • 高德、百度地图的红绿灯读秒是怎么“算”出来的?
  • 高通猛龙来袭!骁龙8 Gen4多核跑分过万
  • OpenAI GPT 商店里这五款模型超好用
  • 14岁女儿将爸爸出轨录音拷贝给妈妈 起诉情人返还25万余元
  • 亚马逊开发名为Rufus的AI购物助手,帮用户购物
  • 《原神》成最快赚钱手游 40个月破50亿美元
推荐内容
  • 15年来级别冰冻预警发布!还有15厘米的暴雪
  • OLMo官网体验入口 开源AI语言模型框架免费下载地址
  • 2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元
  • 苹果宣布将在今年公布新的AI功能 去年已创建大模型Ajax
  • 进击的闲鱼:牵手微信,开线下商店
  • 华为连续两年超越苹果、小米!位居中国可穿戴腕带设备