RVC-WebUI

一个基于VITS的简单易用的变声框架

想要运行这个应用吗？

帮助您专注于艺术创作，而非红色错误
由猫目社区来维护AIGC安装部署的复杂性
无需手动设置
具有惊艳的视觉效果
平台整合上万张高端显卡，一键启动

RVC介绍

RVC全称 Retrieval-based-Voice-Conversion-WebUI，一个基于VITS的简单易用的语音转换（变声器）框架。RVC 是一款前沿的音色替换项目，可以进行歌曲的翻唱，和实时的变声，具有低延迟、优秀的变声效果、声音模型扩展性、个性化和先进的深度学习技术等特点。其核心功能之一是有更高的自由性和声音模型扩展性，可以对任意动漫角色和人物进行实时的声音转换，前提是进行训练声音模型。这为用户提供了极大的自由度和创新空间。这种声音模型的转换是通过深度学习实现的，可以通过简单的设置和选择输入输出，将自己的声音转换成不同的声音音色，从而实现声音的个性化和可玩性。

RVC模拟训练

训练一个RVC模型非常的简单，大概步骤如下：

声音数据收集提取
开始训练
构建索引
完成

下面我们来深入了解各个步骤。

声音数据收集提取

可以通过一些工具来解包游戏获得声音，也可以通过下载工具下载视频，音乐，电影。

可以使用HP5去除伴奏、混响或者回声，打开应用，然后进入文件管理，我们先创建一个文件来存放我们的音频文件，如下面所示：

上传音频文件

注意：我们所有的文件都是在/app目录下。

提取音频后，将其转换为音频格式。例如，将MP4文件改为MP3格式，其他视频格式也需转换为音频格式。转换后，推荐使用UVR5进一步提纯音频。

整理成音频素材集后，即可进行下一步操作。

然后，重命名按顺序排列你的声音数据，比如：

mu (1).wav
mu (2).wav
mu (3).wav
.......

将他们放到一个文件夹内，不要有空格

开始训练

第一步：处理数据

在输入实验名那里输入一个名字，不要有空格，建议使用拼音或者英文，可以是你训练的人物名字。

目标采样率选择40k就够了，如果你的声音数据有48k当然训练48k更好。

CPU进程数建议保持默认，如果你硬件设备很给力可以调高或拉满。

当然你可以选择已有的默认参数，不做修改，然后点击处理数据。

出现 end preprocess 表示处理完毕

第二步：特征提取

特征提取是从声音信号中提取有用信息的过程，这些信息可以被用于训练模型进行分类或识别，选择处理音高的模型，建议使用 rmvpe_gpu。

出现 all-feature-done 表示已经处理完毕，可以进行最后一步处理了。

第三步：设置训练的步数和保存频率

保存频率（save_every_epoch）可以保持默认，这样即使电脑断电重启后也可以接着继续训练，当然硬件设备很给力也可以直接拉满 50轮保存一次。

总训练轮数（total_epoch）可以保持默认，一般默认就足以克隆音色了，但如果你的音色比较特殊(比如夹子音) 可以拉到200，但训练时间也会随之增加。

后面的选项建议保持不动，如果你的硬盘空间不足可以勾选仅保存最新ckpt。

然后点击一键训练，开始训练。

接下来就是等待训练结果，注意：训练过程中不要关闭网页！

第四步：训练完成之后.pth的模型文件会保存到\assets\weights 目录下面，.index的索引文件将会保存到\logs文件下面。

模型推理

点击模型推理选项，然后点击刷新音色列表和索引路径按钮，点击推理音色选项，就会出现刚刚生成的模型，将其选中,然后再输入待处理的音频文件路径，选择对应模型的索引。点击转换，转换后的音频将会出现在右下角的面板上，可以下载最终的音频结果。

我们的模型训练和测试就此结束，希望您在猫目平台上创作愉快，感谢支持猫目平台！