宇宙安全声明:

请自行解决数据集授权问题,禁止使用非授权数据集进行训练!任何由于使用非授权数据集进行训练造成的问题,需自行承担全部责任和后果!严禁损害他人名誉权以及肖像权!


(相关资料图)

更新日志:

2023-05-01:

1.弃用由miniconda3打包的虚拟环境,改用python embed重新制作运行环境

2.完全重写批处理操作逻辑,简单的进行了美化,加入了少量的操作指引

3.加入了多配置文件支持

4.微调了一键包的文件结构

仓库链接:https://github.com/fishaudio/fish-diffusion

wiki链接:https://fishaudio.github.io/fish-diffusion

配置要求:

1.至少一张Nvidia显卡(官方目前实测最低可以在GTX1650 4G上成功训练)

2.充足的硬盘空间,内存和CPU没有硬性要求

3.安装一个编辑器(Sublime Text,VS Code),并且将.py文件的默认打开方式设置为编辑器

下载一键包

百度网盘:https://pan.baidu.com/s/1JfhskdO3piGeTEvC7WUXRw?pwd=gi4c

阿里云盘:https://www.aliyundrive.com/s/ZgNJPAnAK2j

百度网盘下载所有文件块直接解压即可

阿里云盘下载所有文件块后需要删除所有的.exe后缀才能解压

一键包存放的路径中不要有中文,也不要出现空格,空格可以用英文下划线_替代

基本使用方法

1.Launcher.bat是一键包的启动器,大部分流程均在启动器内操作即可

2.打开启动器时需要同意使用协议(输入y),不同意则直接退出启动器(输入n)

3.白底黑字的选项输入后无需回车确认,只能输入括号内的选项

4.黑底白字的选项输入后需要回车确认,输入时请将输入法切换到英文模式,注意大小写

第1、2步:更新、安装项目

1.在启动器内先后输入 1 和 2 对项目进行更新以及安装即可

第3步:准备&预处理数据集

1.将所有的音频切片至5-15s后放入dataset_original文件夹内(必须是同一个角色的声音)

2.在启动器内输入 3 并且选择一个合适地配置文件对数据集进行预处理,下面是配置文件的选择解释:

名称中有hifisinger的是hifisinger架构,其他都是Diffusion架构

Diffusion的极限性能好,hifisinger在脏样本上表现好

带有finetune的配置文件都是在预训练模型上进行微调,数据集时长短的可以尝试一下

响度均衡,训练集和验证集的划分,提取特征都是全自动的,不需要手动操作

第4步:调整训练参数

1.在启动器内输入 4 并且选择第3步使用的配置文件,启动器会用编辑器打开两个.py文件,方便修改,下面是需要修改的部分:

在base.py 中:

log_every_n_steps:每n步记录一次loss值,建议值:10

val_check_interval:每n步对验证集进行验证,建议值:1000

precision:16是半精度训练,32是单精度训练

every_n_train_steps:每n步保存一次模型,建议值:1000

在naive_svc.py或者hifi_svc.py中:

train=dict(

batch_size:批大小,依据使用显卡的显存进行调节

第5步:开始训练

1.在启动器内输入 5 并且选择第3步使用的配置文件,如需中断训练按下Ctrl+C即可

第6步:继续训练

1.在启动器内输入 6 并且选择第3步使用的配置文件

2.输入上一个检查点的文件路径,文件位于logs\xxxx\version_x\xxxx.ckpt,回车即可

第7步:Tensorboard可视化监控

1.在启动器内输入 7 并且输入一个Version,回车即可

第8步:推理音频

1.在启动器内输入 8 并且选择第3步使用的配置文件

2.输入检查点的路径(xxxxx.ckpt),回车确认

3.输入干声路径(xxxxx.wav),回车确认,生成的output.wav就是推理结果