会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 阿里通义实验室开源多模态说话人项目3D-Speaker!

阿里通义实验室开源多模态说话人项目3D-Speaker

时间:2024-07-02 03:52:16 来源:带水拖泥网 作者:深度 阅读:390次

阿里通义实验室开源多模态说话人项目3D-Speaker

CSS站长资源(ChinaZ.com) 2月27日 消息:3D-Speaker 是阿里通义实验室语音团队贡献的一个开源项目,结合了声学、通义语义、实验室开说话视觉三维模态信息来解决说话人任务。源多

项目涵盖了说话人日志、模态目说话人识别和语种识别任务,人项提供了工业级模型、阿里训练代码和推理代码。通义同时还开源了研究数据集3D-Speaker dataset,实验室开说话包含了多设备、源多多距离和多方言的模态目音频数据和文本,适用于高挑战性的人项语音研究。

1. 结合视觉信息的阿里说话人日志技术:

- 在复杂声学环境中,引入视觉信息可以提升说话人识别能力。通义

- 系统包括声学和视觉模态识别路线,实验室开说话通过联合多模态聚类得到最终识别结果。

2. 结合语义信息的说话人日志技术:

- 将说话人日志任务从传统的音频切割转为对文本内容进行说话人区分。

- 提出了对话预测和说话人转换预测模块,基于 Bert 模型,用于提取语义中说话人信息。

3. 基于经典声学信息的说话人和语种识别:

- 包含全监督和自监督说话人识别模型,支持多种数据增强、多模型训练和多损失函数。

- 提供一键式训练推理,支持多种经典模型,并提供有效的学习率调节方案和 margin 变换值。

3D-Speaker 项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。

开源代码链接:

https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh

(责任编辑:资讯)

相关内容
  • 决战拜年之巅体验入口 回家过年模拟器游戏免费在线使用地址
  • moto G85设计图曝光 50MP主摄配光学防抖
  • 被AI偷走声音的配音员,靠什么保住饭碗?
  • 马斯克:未来没有人需要工作 一切按需分配 高收入会很普遍
  • 降雪冻雨下列车车顶一路火花带闪电 专家解读拉弧现象
  • 马斯克:未来没有人需要工作 一切按需分配 高收入会很普遍
  • 马斯克:未来没有人需要工作 一切按需分配 高收入会很普遍
  • QQ就是模仿它而来!聊天软件鼻祖ICQ宣布6月26日关闭:运营近28年
推荐内容
  • coze-discord-proxy体验入口 API调用coze托管Discord机器人设置方法教程指南
  • 女子把iPhone手机留卧室充电去上班 结果把家烧了
  • 6月开测!华为纯血鸿蒙系统界面曝光:已迭代至3.0版本
  • 微软宣布Cortana、写字板等应用“死刑”:Win11 24H2彻底移除
  • 环卫工人用毛巾擦树枝引吐槽 官方回应:是在治理煤污病
  • 说女强人是偏见、员工和企业非雇佣关系!董明珠谈企业不招35岁员工:你去创业