VALL-E

网址：https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e

月访问量： 11.55亿同比上月： -6.26%

VALL-E 是一种用于文本转语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型中派生的离散代码来训练神经编解码器语言模型 (称为 VALL-E)，并将 TTS 视为条件语言建模任务，而不是像以前的工作那样将 TTS 视为连续信号回归

VALL-E 是一种用于文本转语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型中派生的离散代码来训练神经编解码器语言模型 (称为 VALL-E)，并将 TTS 视为条件语言建模任务，而不是像以前的工作那样将 TTS 视为连续信号回归。在预训练阶段，我们将 TTS 训练数据扩展到 60K 小时的英语语音，这比现有系统大数百倍。VALL-E 具有上下文学习能力，仅需 3 秒的未见过的说话人的注册录音作为声音提示即可合成高质量的个性化语音。实验结果表明，VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。此外，我们发现 VALL-E 可以在合成过程中保留说话人的情绪和声音提示的声学环境。

上月数据概览

月访问量	11.55亿	月活	4.22亿	月活(去重)	3.31亿
月PV	39.37亿	平均访问时长	201秒	跳出率	44.38%
人均访问次数	2.74	对比上月	-6.26%	人均访问页面数	3

国家	流量占比	月访问量	人均访问时长	人均访问页数	跳出率
英国	5.15%	-7.82%	174秒	3	43.62%
印度	5.51%	-8.80%	159秒	3	50.83%
巴西	5.63%	-5.91%	218秒	3	44.27%
日本	5.90%	-6.46%	417秒	5	41.46%
美国	20.06%	-6.31%	177秒	3	44.99%

VALL-E

上月数据概览

热门国家/地区访客分布

同类推荐

魔音工坊

讯飞听见

Whisper

ChatGPT

海螺AI

猫目

友情链接

热门推荐

关于

关注我们