宇宙安全声明:
请自行解决数据集授权问题,禁止使用非授权数据集进行训练!任何由于使用非授权数据集进行训练造成的问题,需自行承担全部责任和后果!严禁损害他人名誉权以及肖像权!
(相关资料图)
更新日志:
2023-05-01:
1.弃用由miniconda3打包的虚拟环境,改用python embed重新制作运行环境
2.完全重写批处理操作逻辑,简单的进行了美化,加入了少量的操作指引
3.加入了多配置文件支持
4.微调了一键包的文件结构
仓库链接:https://github.com/fishaudio/fish-diffusion
wiki链接:https://fishaudio.github.io/fish-diffusion
配置要求:
1.至少一张Nvidia显卡(官方目前实测最低可以在GTX1650 4G上成功训练)
2.充足的硬盘空间,内存和CPU没有硬性要求
3.安装一个编辑器(Sublime Text,VS Code),并且将.py文件的默认打开方式设置为编辑器
下载一键包
百度网盘:https://pan.baidu.com/s/1JfhskdO3piGeTEvC7WUXRw?pwd=gi4c
阿里云盘:https://www.aliyundrive.com/s/ZgNJPAnAK2j
百度网盘下载所有文件块直接解压即可
阿里云盘下载所有文件块后需要删除所有的.exe后缀才能解压
一键包存放的路径中不要有中文,也不要出现空格,空格可以用英文下划线_替代
基本使用方法
1.Launcher.bat是一键包的启动器,大部分流程均在启动器内操作即可
2.打开启动器时需要同意使用协议(输入y),不同意则直接退出启动器(输入n)
3.白底黑字的选项输入后无需回车确认,只能输入括号内的选项
4.黑底白字的选项输入后需要回车确认,输入时请将输入法切换到英文模式,注意大小写
第1、2步:更新、安装项目
1.在启动器内先后输入 1 和 2 对项目进行更新以及安装即可
第3步:准备&预处理数据集
1.将所有的音频切片至5-15s后放入dataset_original文件夹内(必须是同一个角色的声音)
2.在启动器内输入 3 并且选择一个合适地配置文件对数据集进行预处理,下面是配置文件的选择解释:
名称中有hifisinger的是hifisinger架构,其他都是Diffusion架构
Diffusion的极限性能好,hifisinger在脏样本上表现好
带有finetune的配置文件都是在预训练模型上进行微调,数据集时长短的可以尝试一下
响度均衡,训练集和验证集的划分,提取特征都是全自动的,不需要手动操作
第4步:调整训练参数
1.在启动器内输入 4 并且选择第3步使用的配置文件,启动器会用编辑器打开两个.py文件,方便修改,下面是需要修改的部分:
在base.py 中:
log_every_n_steps:每n步记录一次loss值,建议值:10
val_check_interval:每n步对验证集进行验证,建议值:1000
precision:16是半精度训练,32是单精度训练
every_n_train_steps:每n步保存一次模型,建议值:1000
在naive_svc.py或者hifi_svc.py中:
train=dict(
batch_size:批大小,依据使用显卡的显存进行调节
第5步:开始训练
1.在启动器内输入 5 并且选择第3步使用的配置文件,如需中断训练按下Ctrl+C即可
第6步:继续训练
1.在启动器内输入 6 并且选择第3步使用的配置文件
2.输入上一个检查点的文件路径,文件位于logs\xxxx\version_x\xxxx.ckpt,回车即可
第7步:Tensorboard可视化监控
1.在启动器内输入 7 并且输入一个Version,回车即可
第8步:推理音频
1.在启动器内输入 8 并且选择第3步使用的配置文件
2.输入检查点的路径(xxxxx.ckpt),回车确认
3.输入干声路径(xxxxx.wav),回车确认,生成的output.wav就是推理结果