初めに
以前にtext to audioを AudioLDMを使って行いました。
今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。
以下のRepositoryを参考に追加学習を行います。
またライブラリ等の調節をして現時点で動くようにしたものを以下に公開しています。
開発環境
- Windows 11 (powershell)
- uv
- python 3.10
セットアップ
今回は、forkしたリポジトリを前提に話を進めていきます (fork元からだと細かいライブラリの調節が必要なため)
環境を作ります
uv venv -p 3.10 .venv/Script/actiavte
まずは pyproject.toml
からライブラリのインストールを行います
uv sync
torch周りのGPU(cuda)版をインストールします
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 --force-reinstall
モデル・データセットの配置
事前学習モデルとデータセットを以下のように配置します
データセットおよびモデルは以下にも公開しているので、こちらもご使用ください
以下でダウンロードすることができます(git cloneよりディスク容量の観点でおすすめです)
huggingface-cli download ayousanz/AudioLDM-training-finetuning --local-dir .
├── .gitkeep ├── checkpoints │ ├── .gitkeep │ ├── audioldm-s-full.ckpt │ ├── audiomae_16k_128bins.ckpt │ ├── clap_htsat_tiny.pt │ ├── clap_music_speech_audioset_epoch_15_esc_89.98.pt │ ├── hifigan_16k_64bins.ckpt │ ├── hifigan_16k_64bins.json │ ├── hifigan_48k_256bins.ckpt │ ├── hifigan_48k_256bins.json │ └── vae_mel_16k_64bins.ckpt └── dataset ├── .gitkeep ├── audioset └── metadata\
追加学習の実行
以下で追加学習を実行します
python audioldm_train/train/latent_diffusion.py -c audioldm_train/config/2023_08_23_reproduce_audioldm/audioldm_original.yaml --reload_from_ckpt data/checkpoints/audioldm-s-full.ckpt