阿里通义实验室开源多模态说话人项目3D-Speaker
时间:2024-07-02 03:52:16 来源:带水拖泥网 作者:深度 阅读:390次
CSS站长资源(ChinaZ.com) 2月27日 消息:3D-Speaker 是阿里通义实验室语音团队贡献的一个开源项目,结合了声学、通义语义、实验室开说话视觉三维模态信息来解决说话人任务。源多
项目涵盖了说话人日志、模态目说话人识别和语种识别任务,人项提供了工业级模型、阿里训练代码和推理代码。通义同时还开源了研究数据集3D-Speaker dataset,实验室开说话包含了多设备、源多多距离和多方言的模态目音频数据和文本,适用于高挑战性的人项语音研究。
1. 结合视觉信息的阿里说话人日志技术:
- 在复杂声学环境中,引入视觉信息可以提升说话人识别能力。通义
- 系统包括声学和视觉模态识别路线,实验室开说话通过联合多模态聚类得到最终识别结果。
2. 结合语义信息的说话人日志技术:
- 将说话人日志任务从传统的音频切割转为对文本内容进行说话人区分。
- 提出了对话预测和说话人转换预测模块,基于 Bert 模型,用于提取语义中说话人信息。
3. 基于经典声学信息的说话人和语种识别:
- 包含全监督和自监督说话人识别模型,支持多种数据增强、多模型训练和多损失函数。
- 提供一键式训练推理,支持多种经典模型,并提供有效的学习率调节方案和 margin 变换值。
3D-Speaker 项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。
开源代码链接:
https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh
(责任编辑:资讯)
最新内容
- ·刘德华在董宇辉直播间唱恭喜发财:《红毯先生》60万张电影代金券抢空
- ·女子把iPhone手机留卧室充电去上班 结果把家烧了
- ·第七届数字中国建设峰会公布“十佳解决方案” 蚂蚁数科数据协作平台入选
- ·魏建军谈哈弗H6失去销冠:我们不后悔 行业有无序、恶意竞争
- ·一件近500元的羽绒服仅赚3毛 胖东来回应:属实
- ·苹果正在开发18/20寸MacBook:使用LG柔性显示屏 最早明年发布
- ·凤凰传奇豫淋军引热议 网友:买最贵的票淋的雨
- ·83岁白胡子爷爷龙舟跳艄火遍:不过瘾 还要再划两年
- ·Mastercard推出新AI模型“Decision Intelligence Pro”以提升网络内欺诈检测
- ·女子想当网红买课被骗10多万!央视曝光网课骗局套路
热点内容