WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う - yousanのメモ

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

初めに

以前にtext to audioを AudioLDMを使って行いました。

ayousanz.hatenadiary.jp

今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。

以下のRepositoryを参考に追加学習を行います。

github.com

またライブラリ等の調節をして現時点で動くようにしたものを以下に公開しています。

github.com

開発環境

セットアップ

今回は、forkしたリポジトリを前提に話を進めていきます (fork元からだと細かいライブラリの調節が必要なため)

環境を作ります

uv venv -p 3.10
.venv/Script/actiavte

まずは pyproject.toml からライブラリのインストールを行います

uv sync

torch周りのGPU(cuda)版をインストールします

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 --force-reinstall

モデル・データセットの配置

事前学習モデルとデータセットを以下のように配置します

データセットおよびモデルは以下にも公開しているので、こちらもご使用ください

以下でダウンロードすることができます(git cloneよりディスク容量の観点でおすすめです)

huggingface-cli download ayousanz/AudioLDM-training-finetuning --local-dir .

huggingface.co

├── .gitkeep
├── checkpoints
│   ├── .gitkeep
│   ├── audioldm-s-full.ckpt
│   ├── audiomae_16k_128bins.ckpt
│   ├── clap_htsat_tiny.pt
│   ├── clap_music_speech_audioset_epoch_15_esc_89.98.pt
│   ├── hifigan_16k_64bins.ckpt
│   ├── hifigan_16k_64bins.json
│   ├── hifigan_48k_256bins.ckpt
│   ├── hifigan_48k_256bins.json
│   └── vae_mel_16k_64bins.ckpt
└── dataset
├── .gitkeep
├── audioset
└── metadata\

追加学習の実行

以下で追加学習を実行します

python audioldm_train/train/latent_diffusion.py -c audioldm_train/config/2023_08_23_reproduce_audioldm/audioldm_original.yaml --reload_from_ckpt data/checkpoints/audioldm-s-full.ckpt