当前位置：首页>热点 > 正文

Fish Diffusion一键包&使用教程 V2.0|今亮点

2023-05-01 19:09:18 来源: 哔哩哔哩

宇宙安全声明:

请自行解决数据集授权问题，禁止使用非授权数据集进行训练！任何由于使用非授权数据集进行训练造成的问题，需自行承担全部责任和后果！严禁损害他人名誉权以及肖像权！

(相关资料图)

更新日志:

2023-05-01:

1.弃用由miniconda3打包的虚拟环境，改用python embed重新制作运行环境

2.完全重写批处理操作逻辑，简单的进行了美化，加入了少量的操作指引

3.加入了多配置文件支持

4.微调了一键包的文件结构

仓库链接：https://github.com/fishaudio/fish-diffusion

wiki链接：https://fishaudio.github.io/fish-diffusion

配置要求:

1.至少一张Nvidia显卡（官方目前实测最低可以在GTX1650 4G上成功训练）

2.充足的硬盘空间，内存和CPU没有硬性要求

3.安装一个编辑器（Sublime Text，VS Code），并且将.py文件的默认打开方式设置为编辑器

下载一键包

百度网盘：https://pan.baidu.com/s/1JfhskdO3piGeTEvC7WUXRw?pwd=gi4c

阿里云盘：https://www.aliyundrive.com/s/ZgNJPAnAK2j

百度网盘下载所有文件块直接解压即可

阿里云盘下载所有文件块后需要删除所有的.exe后缀才能解压

一键包存放的路径中不要有中文，也不要出现空格，空格可以用英文下划线_替代

基本使用方法

1.Launcher.bat是一键包的启动器，大部分流程均在启动器内操作即可

2.打开启动器时需要同意使用协议（输入y），不同意则直接退出启动器（输入n）

3.白底黑字的选项输入后无需回车确认，只能输入括号内的选项

4.黑底白字的选项输入后需要回车确认，输入时请将输入法切换到英文模式，注意大小写

第1、2步：更新、安装项目

1.在启动器内先后输入 1 和 2 对项目进行更新以及安装即可

第3步：准备&预处理数据集

1.将所有的音频切片至5-15s后放入dataset_original文件夹内（必须是同一个角色的声音）

2.在启动器内输入 3 并且选择一个合适地配置文件对数据集进行预处理，下面是配置文件的选择解释：

名称中有hifisinger的是hifisinger架构，其他都是Diffusion架构

Diffusion的极限性能好，hifisinger在脏样本上表现好

带有finetune的配置文件都是在预训练模型上进行微调，数据集时长短的可以尝试一下

响度均衡，训练集和验证集的划分，提取特征都是全自动的，不需要手动操作

第4步：调整训练参数

1.在启动器内输入 4 并且选择第3步使用的配置文件，启动器会用编辑器打开两个.py文件，方便修改，下面是需要修改的部分：

在base.py 中：

log_every_n_steps：每n步记录一次loss值，建议值：10

val_check_interval：每n步对验证集进行验证，建议值：1000

precision：16是半精度训练，32是单精度训练

every_n_train_steps：每n步保存一次模型，建议值：1000

在naive_svc.py或者hifi_svc.py中：

train=dict(

batch_size：批大小，依据使用显卡的显存进行调节

第5步：开始训练

1.在启动器内输入 5 并且选择第3步使用的配置文件，如需中断训练按下Ctrl+C即可

第6步：继续训练

1.在启动器内输入 6 并且选择第3步使用的配置文件

2.输入上一个检查点的文件路径，文件位于logs\xxxx\version_x\xxxx.ckpt，回车即可

第7步：Tensorboard可视化监控

1.在启动器内输入 7 并且输入一个Version，回车即可

第8步：推理音频

1.在启动器内输入 8 并且选择第3步使用的配置文件

2.输入检查点的路径（xxxxx.ckpt），回车确认

3.输入干声路径（xxxxx.wav），回车确认，生成的output.wav就是推理结果

标签：