训练
Voice Models: Over 27,900+ Unique AI RVC Models (voice-models.com)
这个网站可以直接下载别人训练好的模型
本地训练的,在RVC的logs文件夹里有训练模型时已模型命名的文件夹,里面能找到后缀名是.index的索引文件。 而在RVC的weights文件夹里可以直接看到已模型命名的.pth的模型文件。 在本地训练模型的就不用动索引文件与模型文件了,推理的时候可以直接调用。 如果是服务器训练模型的,则在服务器的root文件夹内找到同名的logs和weights这两个文件夹,下载其中的.index和.pth这两个文件,并且复制到RVC内的同名文件夹内。
可以如图设置,输入训练档案夹路径有bug,直接复制粘贴会导致训练出错,所以要手动一字一字打上去。
也可查看b站有人做了详细教程17分钟学会RVC声音克隆丨真·保姆级教程-零基础入门声音训练模型,让你能够复刻任何人声哔哩哔哩bilibili
UVR5 (Utimate Vocal Removergui)
推理之前需要对音频进行处理,依次消除伴奏,和声,混响
项目地址Anjok07/ultimatevocalremovergui:使用深度神经网络的人声去除器的 GUI。 (github.com)
使用MDX-NET 中的UVR-MDX-Netmain进行伴奏分离
使用VR Architecture 中的5_Hp_Karaoke-UVR 进行第二部和声分离,参数5不要调,基本可以使用了
参数设置看简介调,不懂也可以上面b站链接
混响(没试过)使用RVC自带的消除,使用onnx_dereverb-_By_foxJoy跑一遍,再用VR-DeEchoAggressive跑一遍
推理
下面开始推理操作:
在RVC中点击 go-web.bat,首先会打开控制台,也就是命令行,此时稍等片刻,等待打开网页。 打开网页后,点击 模型推理 按钮,此时就显示了推理的操作界面。
推理音色 组合框 xxx.pth 刷新音色列表和索引路径 按钮 卸载音色省显存 按钮 这里的两个按钮就是字面意思,而组合框是我们选择模型的地方。建议在组合框先用alt加下光标打开,然后再用上下光标找到要使用的模型文件,接着回车一次即可。
请选择说话人id 滑块 0 这里是选择一个模型内多个音色的地方,目前此功能没有开放,所以不用动。
男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域. 变调(整数, 半音数量, 升八度12降八度-12) 微调组合框 0 按照8度有12个半音的原理,这里的数值是已半音为单位的方式进行调整的。 如果是女转男,及干声为女,模型为难,要把数值拉低,也就是在0以下为负数,通常是12个半音,但是根据模型音色和干声音色的情况,不一定都能拉到-12,可以根据情况,在-12附近上下调整,这个需要尝试后才能确定。 弱是男转女,及干声为男,模型为女,则情况相反,需要身高12个半音,同样也要根据音色的情况在12附近进行调整。 另外,男转男和女转女则默认为0,也可根据音色情况在0附近做适当调整。
输入待处理音频文件路径(默认是正确格式示例) 可编辑文本 E:\codes\py39\test-20230416b\todo-songs\冬之花clip1.wav 这里是输入要转换的干声的路径,根据提供的示例输入即可,值得注意的是,在路径的中间以及前后不要有符号或空格。
选择音高提取算法,输入歌声可用pm提速,harvest低音好但巨慢无比,crepe效果好但吃GPU,rmvpe效果最好且微吃GPU pm 单选按钮 harvest 单选按钮 crepe 单选按钮 rmvpe 单选按钮 这里是选择推理用的算法,越往下品质越好,但越吃电脑配置,所以要根据自己的电脑情况选择。
3则使用对harvest音高识别的结果使用中值滤波,数值为滤波半径,使用可以削弱哑音 滑块 3 这里是一个EQ处理哑音的范围,通常默认即可,如果哑音明显的,可以尝试把数值调到5或7左右
特征检索库文件路径,为空则使用下拉的选择结果 可编辑文本 自动检测index路径,下拉式选择(dropdown) 组合框 logs/xxx.index 这里就是选择声音索引文件的地方了,前面的编辑框可以手动输入索引.index文件的路径,后面的组合框可以直接选择索引文件,但索引.index的文件一定要在logs文件夹内,否则组合框里就识别不到。
检索特征占比 检索特征占比 滑块 0.75 这里是调整要使用多少模型声音特征的,拉满则完全使用索引训练的声音特征。0则为不使用索引,这时候推理会完全使用底膜的声音特征。 推荐索引特征调整在0.5到1之间,如果模型质量好可以拉高数值,弱模型质量差,就拉低,用底膜的特征来辅助。
后处理重采样至最终采样率,0为不进行重采样 滑块 0 这里是对采样率重新选择的设置,默认不动即可。
输入源音量包络替换输出音量包络融合比例,越靠近1越使用输出包络 滑块 0.25 这里是调整推理后音频音量的参数,拉满1的时候,使用RVC标准化后的音量,减小数值则靠近推理使用的原始音频音量。推荐直接拉满。
保护清辅音和呼吸声,防止电音撕裂等artifact,拉满0.5不开启,调低加大保护力度但可能降低索引效果 滑块 0.33 这里是保护清辅音和呼吸声的地方,拉低可以保护的更好,但是会损失声音的特征,拉满则表示关闭。
转换 按钮 以上的设置完成以后,就可以在这里点击转换推理了。点击转换后,下面的输出信息的下方,会有两行数值,上面的一行是时间的进度,下一行是参考本次转换的质量,数值越小质量越好。
另外要说明的是,RVC的模型推理界面,有相同的两套设置,前面的是单文件转换。当切到第一个转换按钮的时候,再往后就是第二套设置了,第二套则是批量转换,可以添加输入文件夹内的多个文件批量转换。 在第二套设置的最后,会有导出文件格式的选项,这个和第一套设置是二合一的。
导出文件格式 wav 单选按钮 flac 单选按钮 mp3 单选按钮 m4a 单选按钮 这里选择推理后的音频格式,建议选择wav。
当输出信息下方的两行数值消失候,就表示本次的推理已经成功完成了,点击网页内的播放按钮可以试听本次推理的音频文件。 你也可以点击网页中的点击显示更多媒体控件 菜单 更多选项 按钮,弹出菜单选项,点击后,第一个选项就是下载媒体 菜单项目,回车就可以下载本次推理后的音频文件了。
值得注意的是,第二套设置的开头,有输出文件夹可以手动指定一个推理完成后的成品存放路径,这时,推理完成后,就可以在你指定的文件夹内看到推理完成后的音频文件了。 指定输出文件夹 可编辑文本 opt 这里写上文件夹的绝对路径,例如: D:\xxx
最后,在推理过程中当无意中关闭了网页,但没有关闭命令行,也不用慌张,打开浏览器,输入: http://127.0.0.1:7897 可以重新打开网页看到推理的进度和成品。
学到了,谢谢博主分享。
我喜欢你