领200元免费算力

RVC-WebUI

一个基于VITS的简单易用的变声框架

想要运行这个应用吗?

  • 帮助您专注于艺术创作,而非红色错误
  • 由猫目社区来维护AIGC安装部署的复杂性
  • 无需手动设置
  • 具有惊艳的视觉效果
  • 平台整合上万张高端显卡,一键启动



RVC介绍

RVC全称 Retrieval-based-Voice-Conversion-WebUI,一个基于VITS的简单易用的语音转换(变声器)框架。RVC 是一款前沿的音色替换项目,可以进行歌曲的翻唱,和实时的变声,具有低延迟、优秀的变声效果、声音模型扩展性、个性化和先进的深度学习技术等特点。其核心功能之一是有更高的自由性和声音模型扩展性,可以对任意动漫角色和人物进行实时的声音转换,前提是进行训练声音模型。这为用户提供了极大的自由度和创新空间。这种声音模型的转换是通过深度学习实现的,可以通过简单的设置和选择输入输出,将自己的声音转换成不同的声音音色,从而实现声音的个性化和可玩性。

RVC模拟训练

训练一个RVC模型非常的简单,大概步骤如下:

  • 声音数据收集提取
  • 开始训练
  • 构建索引
  • 完成

下面我们来深入了解各个步骤。

声音数据收集提取

可以通过一些工具来解包游戏获得声音,也可以通过下载工具下载视频,音乐,电影。

可以使用HP5去除伴奏、混响或者回声,打开应用,然后进入文件管理,我们先创建一个文件来存放我们的音频文件,如下面所示:

上传音频文件

注意:我们所有的文件都是在/app目录下。

提取音频后,将其转换为音频格式。例如,将MP4文件改为MP3格式,其他视频格式也需转换为音频格式。转换后,推荐使用UVR5进一步提纯音频。

整理成音频素材集后,即可进行下一步操作。

然后,重命名按顺序排列你的声音数据,比如:

  • mu (1).wav
  • mu (2).wav
  • mu (3).wav
  • .......

将他们放到一个文件夹内,不要有空格



开始训练

第一步:处理数据

在输入实验名那里输入一个名字,不要有空格,建议使用拼音或者英文,可以是你训练的人物名字。

目标采样率选择40k就够了,如果你的声音数据有48k当然训练48k更好。

CPU进程数建议保持默认,如果你硬件设备很给力可以调高或拉满。

当然你可以选择已有的默认参数,不做修改,然后点击处理数据。

出现 end preprocess 表示处理完毕

第二步:特征提取

特征提取是从声音信号中提取有用信息的过程,这些信息可以被用于训练模型进行分类或识别,选择处理音高的模型,建议使用 rmvpe_gpu。

出现 all-feature-done 表示已经处理完毕,可以进行最后一步处理了。


第三步:设置训练的步数和保存频率

保存频率(save_every_epoch)可以保持默认,这样即使电脑断电重启后也可以接着继续训练,当然硬件设备很给力也可以直接拉满 50轮保存一次。

总训练轮数(total_epoch)可以保持默认,一般默认就足以克隆音色了,但如果你的音色比较特殊(比如夹子音) 可以拉到200,但训练时间也会随之增加。

后面的选项建议保持不动,如果你的硬盘空间不足可以勾选仅保存最新ckpt。

然后点击一键训练,开始训练

接下来就是等待训练结果,注意:训练过程中不要关闭网页!


第四步:训练完成之后.pth的模型文件会保存到\assets\weights 目录下面,.index的索引文件将会保存到\logs文件下面



模型推理

点击模型推理选项,然后点击刷新音色列表和索引路径按钮,点击推理音色选项,就会出现刚刚生成的模型,将其选中,然后再输入待处理的音频文件路径,选择对应模型的索引。点击转换,转换后的音频将会出现在右下角的面板上,可以下载最终的音频结果。

我们的模型训练和测试就此结束,希望您在猫目平台上创作愉快,感谢支持猫目平台!