RVC AI语音变声 – 慕茸的小窝

本文最后更新于112 天前，其中的信息可能已经过时，如有错误请发送邮件到2678940862@qq.com

项目地址：RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Easily train a good VC model with voice data <= 10 mins! (github.com)

训练

Voice Models: Over 27,900+ Unique AI RVC Models (voice-models.com)

这个网站可以直接下载别人训练好的模型

本地训练的，在RVC的logs文件夹里有训练模型时已模型命名的文件夹，里面能找到后缀名是.index的索引文件。 而在RVC的weights文件夹里可以直接看到已模型命名的.pth的模型文件。 在本地训练模型的就不用动索引文件与模型文件了，推理的时候可以直接调用。 如果是服务器训练模型的，则在服务器的root文件夹内找到同名的logs和weights这两个文件夹，下载其中的.index和.pth这两个文件，并且复制到RVC内的同名文件夹内。

可以如图设置，输入训练档案夹路径有bug，直接复制粘贴会导致训练出错，所以要手动一字一字打上去。

也可查看b站有人做了详细教程17分钟学会RVC声音克隆丨真·保姆级教程-零基础入门声音训练模型，让你能够复刻任何人声哔哩哔哩bilibili

UVR5 (Utimate Vocal Removergui)

推理之前需要对音频进行处理，依次消除伴奏，和声，混响

项目地址Anjok07/ultimatevocalremovergui：使用深度神经网络的人声去除器的 GUI。 (github.com)

使用MDX-NET 中的UVR-MDX-Netmain进行伴奏分离

使用VR Architecture 中的5_Hp_Karaoke-UVR 进行第二部和声分离，参数5不要调，基本可以使用了

参数设置看简介调，不懂也可以上面b站链接

混响（没试过）使用RVC自带的消除，使用onnx_dereverb-_By_foxJoy跑一遍，再用VR-DeEchoAggressive跑一遍

推理

下面开始推理操作：

在RVC中点击 go-web.bat，首先会打开控制台，也就是命令行，此时稍等片刻，等待打开网页。打开网页后，点击模型推理按钮，此时就显示了推理的操作界面。

推理音色组合框 xxx.pth 刷新音色列表和索引路径按钮卸载音色省显存按钮这里的两个按钮就是字面意思，而组合框是我们选择模型的地方。建议在组合框先用alt加下光标打开，然后再用上下光标找到要使用的模型文件，接着回车一次即可。

请选择说话人id 滑块 0 这里是选择一个模型内多个音色的地方，目前此功能没有开放，所以不用动。

男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域. 变调(整数, 半音数量, 升八度12降八度-12) 微调组合框 0 按照8度有12个半音的原理，这里的数值是已半音为单位的方式进行调整的。如果是女转男，及干声为女，模型为难，要把数值拉低，也就是在0以下为负数，通常是12个半音，但是根据模型音色和干声音色的情况，不一定都能拉到-12，可以根据情况，在-12附近上下调整，这个需要尝试后才能确定。弱是男转女，及干声为男，模型为女，则情况相反，需要身高12个半音，同样也要根据音色的情况在12附近进行调整。另外，男转男和女转女则默认为0，也可根据音色情况在0附近做适当调整。

输入待处理音频文件路径(默认是正确格式示例) 可编辑文本 E:\codes\py39\test-20230416b\todo-songs\冬之花clip1.wav 这里是输入要转换的干声的路径，根据提供的示例输入即可，值得注意的是，在路径的中间以及前后不要有符号或空格。

选择音高提取算法,输入歌声可用pm提速,harvest低音好但巨慢无比,crepe效果好但吃GPU,rmvpe效果最好且微吃GPU pm 单选按钮 harvest 单选按钮 crepe 单选按钮 rmvpe 单选按钮这里是选择推理用的算法，越往下品质越好，但越吃电脑配置，所以要根据自己的电脑情况选择。

3则使用对harvest音高识别的结果使用中值滤波，数值为滤波半径，使用可以削弱哑音滑块 3 这里是一个EQ处理哑音的范围，通常默认即可，如果哑音明显的，可以尝试把数值调到5或7左右

特征检索库文件路径,为空则使用下拉的选择结果可编辑文本自动检测index路径,下拉式选择(dropdown) 组合框 logs/xxx.index 这里就是选择声音索引文件的地方了，前面的编辑框可以手动输入索引.index文件的路径，后面的组合框可以直接选择索引文件，但索引.index的文件一定要在logs文件夹内，否则组合框里就识别不到。

检索特征占比检索特征占比滑块 0.75 这里是调整要使用多少模型声音特征的，拉满则完全使用索引训练的声音特征。0则为不使用索引，这时候推理会完全使用底膜的声音特征。推荐索引特征调整在0.5到1之间，如果模型质量好可以拉高数值，弱模型质量差，就拉低，用底膜的特征来辅助。

后处理重采样至最终采样率，0为不进行重采样滑块 0 这里是对采样率重新选择的设置，默认不动即可。

输入源音量包络替换输出音量包络融合比例，越靠近1越使用输出包络滑块 0.25 这里是调整推理后音频音量的参数，拉满1的时候，使用RVC标准化后的音量，减小数值则靠近推理使用的原始音频音量。推荐直接拉满。

保护清辅音和呼吸声，防止电音撕裂等artifact，拉满0.5不开启，调低加大保护力度但可能降低索引效果滑块 0.33 这里是保护清辅音和呼吸声的地方，拉低可以保护的更好，但是会损失声音的特征，拉满则表示关闭。

转换按钮以上的设置完成以后，就可以在这里点击转换推理了。点击转换后，下面的输出信息的下方，会有两行数值，上面的一行是时间的进度，下一行是参考本次转换的质量，数值越小质量越好。

另外要说明的是，RVC的模型推理界面，有相同的两套设置，前面的是单文件转换。当切到第一个转换按钮的时候，再往后就是第二套设置了，第二套则是批量转换，可以添加输入文件夹内的多个文件批量转换。在第二套设置的最后，会有导出文件格式的选项，这个和第一套设置是二合一的。

导出文件格式 wav 单选按钮 flac 单选按钮 mp3 单选按钮 m4a 单选按钮这里选择推理后的音频格式，建议选择wav。

当输出信息下方的两行数值消失候，就表示本次的推理已经成功完成了，点击网页内的播放按钮可以试听本次推理的音频文件。你也可以点击网页中的点击显示更多媒体控件菜单更多选项按钮，弹出菜单选项，点击后，第一个选项就是下载媒体菜单项目，回车就可以下载本次推理后的音频文件了。

值得注意的是，第二套设置的开头，有输出文件夹可以手动指定一个推理完成后的成品存放路径，这时，推理完成后，就可以在你指定的文件夹内看到推理完成后的音频文件了。指定输出文件夹可编辑文本 opt 这里写上文件夹的绝对路径，例如: D:\xxx

最后，在推理过程中当无意中关闭了网页，但没有关闭命令行，也不用慌张，打开浏览器，输入： http://127.0.0.1:7897 可以重新打开网页看到推理的进度和成品。

亦可以查看b站详细教程RVC声音克隆丨保姆级教程-模型推理技巧与应用实例演示·AI的趋势与原因哔哩哔哩bilibili

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

慕茸

幸福往往是摸得透彻

训练

UVR5 (Utimate Vocal Removergui)

推理

评论

发送评论编辑评论

训练

UVR5 (Utimate Vocal Removergui)

推理

评论

发送评论 编辑评论

推荐文章

发送评论编辑评论