RVC-WebUI
一个基于VITS的简单易用的变声框架
想要运行这个应用吗?
- 帮助您专注于艺术创作,而非红色错误
- 由猫目社区来维护AIGC安装部署的复杂性
- 无需手动设置
- 具有惊艳的视觉效果
- 平台整合上万张高端显卡,一键启动
RVC介绍
RVC全称 Retrieval-based-Voice-Conversion-WebUI,一个基于VITS的简单易用的语音转换(变声器)框架。RVC 是一款前沿的音色替换项目,可以进行歌曲的翻唱,和实时的变声,具有低延迟、优秀的变声效果、声音模型扩展性、个性化和先进的深度学习技术等特点。其核心功能之一是有更高的自由性和声音模型扩展性,可以对任意动漫角色和人物进行实时的声音转换,前提是进行训练声音模型。这为用户提供了极大的自由度和创新空间。这种声音模型的转换是通过深度学习实现的,可以通过简单的设置和选择输入输出,将自己的声音转换成不同的声音音色,从而实现声音的个性化和可玩性。
RVC模拟训练
训练一个RVC模型非常的简单,大概步骤如下:
- 声音数据收集提取
- 开始训练
- 构建索引
- 完成
下面我们来深入了解各个步骤。
声音数据收集提取
可以通过一些工具来解包游戏获得声音,也可以通过下载工具下载视频,音乐,电影。
可以使用HP5去除伴奏、混响或者回声,打开应用,然后进入文件管理,我们先创建一个文件来存放我们的音频文件,如下面所示:
上传音频文件
注意:我们所有的文件都是在/app目录下。
提取音频后,将其转换为音频格式。例如,将MP4文件改为MP3格式,其他视频格式也需转换为音频格式。转换后,推荐使用UVR5进一步提纯音频。
整理成音频素材集后,即可进行下一步操作。
然后,重命名按顺序排列你的声音数据,比如:
- mu (1).wav
- mu (2).wav
- mu (3).wav
- .......
将他们放到一个文件夹内,不要有空格
开始训练
第一步:处理数据
在输入实验名那里输入一个名字,不要有空格,建议使用拼音或者英文,可以是你训练的人物名字。
目标采样率选择40k就够了,如果你的声音数据有48k当然训练48k更好。
CPU进程数建议保持默认,如果你硬件设备很给力可以调高或拉满。
当然你可以选择已有的默认参数,不做修改,然后点击处理数据。
出现 end preprocess 表示处理完毕
第二步:特征提取
特征提取是从声音信号中提取有用信息的过程,这些信息可以被用于训练模型进行分类或识别,选择处理音高的模型,建议使用 rmvpe_gpu。
出现 all-feature-done 表示已经处理完毕,可以进行最后一步处理了。
第三步:设置训练的步数和保存频率
保存频率(save_every_epoch)可以保持默认,这样即使电脑断电重启后也可以接着继续训练,当然硬件设备很给力也可以直接拉满 50轮保存一次。
总训练轮数(total_epoch)可以保持默认,一般默认就足以克隆音色了,但如果你的音色比较特殊(比如夹子音) 可以拉到200,但训练时间也会随之增加。
后面的选项建议保持不动,如果你的硬盘空间不足可以勾选仅保存最新ckpt。
然后点击一键训练,开始训练。
接下来就是等待训练结果,注意:训练过程中不要关闭网页!
第四步:训练完成之后.pth的模型文件会保存到\assets\weights 目录下面,.index的索引文件将会保存到\logs文件下面。
模型推理
点击模型推理选项,然后点击刷新音色列表和索引路径按钮,点击推理音色选项,就会出现刚刚生成的模型,将其选中,然后再输入待处理的音频文件路径,选择对应模型的索引。点击转换,转换后的音频将会出现在右下角的面板上,可以下载最终的音频结果。
我们的模型训练和测试就此结束,希望您在猫目平台上创作愉快,感谢支持猫目平台!