VALL-E

纠错

月访问量: 11.55亿 同比上月: -6.26%

VALL-E 是一种用于文本转语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型中派生的离散代码来训练神经编解码器语言模型 (称为 VALL-E),并将 TTS 视为条件语言建模任务,而不是像以前的工作那样将 TTS 视为连续信号回归

VALL-E 是一种用于文本转语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型中派生的离散代码来训练神经编解码器语言模型 (称为 VALL-E),并将 TTS 视为条件语言建模任务,而不是像以前的工作那样将 TTS 视为连续信号回归。在预训练阶段,我们将 TTS 训练数据扩展到 60K 小时的英语语音,这比现有系统大数百倍。VALL-E 具有上下文学习能力,仅需 3 秒的未见过的说话人的注册录音作为声音提示即可合成高质量的个性化语音。实验结果表明,VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。此外,我们发现 VALL-E 可以在合成过程中保留说话人的情绪和声音提示的声学环境。

上月数据概览

月访问量11.55亿月活4.22亿月活(去重)3.31亿
月PV39.37亿平均访问时长201秒跳出率44.38%
人均访问次数2.74对比上月-6.26%人均访问页面数3

热门国家/地区访客分布

国家流量占比月访问量人均访问时长人均访问页数跳出率
英国
5.15%
-7.82%
174秒343.62%
印度
5.51%
-8.80%
159秒350.83%
巴西
5.63%
-5.91%
218秒344.27%
日本
5.90%
-6.46%
417秒541.46%
美国
20.06%
-6.31%
177秒344.99%