NaturalSpeech 3：可克隆音色和感情的语音合成系统-带水拖泥网

当前位置：首页 > 业界 > NaturalSpeech 3：可克隆音色和感情的语音合成系统正文

NaturalSpeech 3：可克隆音色和感情的语音合成系统

时间：2024-07-04 04:47:00 来源：带水拖泥网作者：自媒体阅读：855次

NaturalSpeech 3：可克隆音色和感情的语音合成系统

**划重点:

1. 🌐 创新性的可克隆语音合成系统，NaturalSpeech3，音色语音采用分解编解码器和扩散模型，和感合成在零样本情况下生成自然语音。系统

2. 🚀 使用神经编解码器进行语音波形分解，可克隆包括内容、音色语音韵律、和感合成音色和声学细节，系统以实现细致入微的可克隆语音建模。

3. 📈 在LibriSpeech和Ravdess基准测试上，音色语音NaturalSpeech3在质量、和感合成相似度、系统韵律和可懂度方面均优于现有TTS系统。可克隆

CSS站长资源（ChinaZ.com）3月8日消息:随着大规模文本到语音（TTS）模型的音色语音发展，取得了显著进展，和感合成但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节)，这为生成带来了巨大挑战。

为了解决这一问题，NaturalSpeech3提出了一种创新的TTS系统，采用了新颖的分解扩散模型，以零样本的方式生成自然语音。也就是提供文本和参考音频，可以克隆音色和感情，值得注意的是，NaturalSpeech3目前只有论文。

语音建模的关键创新点之一是使用神经编解码器，包含分解的向量量化（FVQ），将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外，他们还提出了分解的扩散模型，用于根据相应提示生成每个子空间中的属性。实验证明，NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。

在LibriSpeech基准测试中，NaturalSpeech3的性能明显超越了其他系统。对比结果显示，NaturalSpeech3在相似度（Sim-O）、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外，通过扩大模型规模和训练数据，NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。

除了LibriSpeech基准测试，NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD（Mel频率倒谱系数）方面，相较于其他系统，NaturalSpeech3的平均MCD显著降低，表现出更好的语音合成效果。

值得注意的是，由于该模型能够以高度相似的说话者模仿真实语音，存在潜在的滥用风险，例如欺骗语音识别或冒充特定说话者。因此，在实验中，假定用户同意成为语音合成的目标说话者。为了防止滥用，研究者呼吁开发强大的合成语音检测模型，并建立一个系统，让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。

项目网址入口:https://top.aibase.com/tool/naturalspeech-3

(责任编辑：自媒体)

[1]

[2]

[3]

上一篇：花130万当网红未果起诉要回80万引热议网友：现在火上热搜了
下一篇：京东春晚互动大奖揭晓：100寸电视、2万元洗衣机只要1分钱