
VALL-E 是一种用于文本转语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型中派生的离散代码来训练神经编解码器语言模型 (称为 VALL-E),并将 TTS 视为条件语言建模任务,而不是像以前的工作那样将 TTS 视为连续信号回归。在预训练阶段,我们将 TTS 训练数据扩展到 60K 小时的英语语音,这比现有系统大数百倍。VALL-E 具有上下文学习能力,仅需 3 秒的未见过的说话人的注册录音作为声音提示即可合成高质量的个性化语音。实验结果表明,VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。此外,我们发现 VALL-E 可以在合成过程中保留说话人的情绪和声音提示的声学环境。
上月数据概览
月访问量 | 12.43亿 | 对比上月 | 0.00% | 月PV | 42.53亿 |
---|---|---|---|---|---|
平均访问时长 | 198秒 | 跳出率 | 44.36% | 人均访问页面数 | 3 |
热门国家/地区访客分布
国家 | 流量占比 | 月访问量 | 人均访问时长 | 人均访问页数 | 跳出率 |
---|---|---|---|---|---|
英国 | 5.19% | 8.52% | 161秒 | 3 | 43.89% |
印度 | 5.29% | 3.36% | 154秒 | 3 | 51.24% |
巴西 | 5.41% | 3.37% | 218秒 | 3 | 44.75% |
日本 | 5.84% | 6.69% | 435秒 | 5 | 40.74% |
美国 | 19.86% | 6.59% | 179秒 | 3 | 45.69% |
你可能还喜欢
一帧秒创
“秒创”(一帧秒创)的官方网站,由新壹(北京)科技有限公司开发,是一个基于AIGC(AI-Generated Content,人工智能生成内容)技术的智能内容创作平台。该平台旨在通过人工智能技术帮助用户快速、高效地生成各种形式的内容,主要服务于图文和视频创作者、自媒体博主、营销人

讯飞智作
讯飞智作配音网站为科大讯飞旗下产品,提供AI虚拟人主播,AI视频制作,数字人配音合成,短视频配音等一站式配音服务。

来画
一个基于人工智能的动画和数字人智能生成平台,由深圳市前海手绘科技文化有限公司开发,致力于为用户提供简单高效的视频内容创作工具。

TTSMaker
免费的AI配音平台,可以将文本转换成语音,支持50多种语言和300多种语音风格
魔音工坊
一个专注于AI语音合成与真人配音服务的平台
PlayHT
AI语音生成器和文本转语音AI语音平台

FakeYou
一个人工智能驱动的文本转语音(Text-to-Speech, TTS)和语音转换平台,允许用户通过深度伪造(deepfake)技术生成逼真的音频和视频内容。

讯飞听见
科大讯飞旗下「讯飞听见」平台的语音转文字核心服务

Resemble.ai
一个人工智能语音生成平台,专注于提供高质量的文本转语音(Text-to-Speech, TTS)和语音转语音(Speech-to-Speech)解决方案,帮助用户创建逼真的合成语音。

米可智能
一个基于人工智能的音视频服务平台,提供一站式的视频配音、声音克隆、文本转语音(TTS)等功能。它由杭州米可智能科技有限公司开发,旨在通过AI技术大幅提升音视频内容创作的效率,适用于自媒体创作者、教育工作者、企业用户以及个人用户。