2024-01-01から1年間の記事一覧 - yousanのメモ

2024-01-01から1年間の記事一覧

ローカルでsmollmで動画の内容に関する推論を行う

AI

初めに 開発環境 セットアップ 動画推論 初めに 昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…

ローカルでsmollmを動かす

AI

初めに 開発環境 セットアップ デフォルトの質問 初めに 小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

AI

初めに 開発環境 セットアップ データの準備 Custom Videoでの推論 初めに モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップ まずは環境を作っていきます uv venv…

FFmpegで連番の画像から動画を作成する

開発環境 連番画像から動画作成 開発環境 Windows11 FFmpeg N-113785-gfe340c3244-20240223 連番画像から動画作成 連番の画像があるフォルダで以下を実行 ffmpeg -framerate 30 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4 オプションにつ…

WSL2 + dockerの容量削減方法

初めに 開発環境 方法 初めに Windowsでdockerを使った開発を行っていると容量がどんどん増えていきます。定期的に掃除をする必要があるので、やり方のメモです 開発環境 Windows11 wsl 方法 以下の記事を参考にして、既存のdocker imageを削除 docker syste…

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AI

初めに 開発環境 セットアップ モデル・データセットの配置 追加学習の実行 初めに 以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。 以…

AudioLDMでtext to audioを行う

AI

初めに 開発環境 セットアップ 推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップ まずは公式…

OmniParserをDockerで動かす

AI

初めに 開発環境 詳細 初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。 環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…

GeminiAPIを使って音声データセットのラベル付けを行う

AI

初めに 開発環境 準備 GeminiAPIを使ってラベル付けつけ 初めに 音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。 今回は、GeminaiのAPIを使って音声お…

manga-ocrを動かす

AI

初めに 開発環境 環境セットアップ 推論 初めに 日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ 公式のままだとエラーになるので、pyproject.toml を変更します …

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

AI

初めに 開発環境 構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題 ボリュームマウントを使ったフォルダ共有 推論 初めに こちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

AI

初めに 開発環境 セットアップ タンパク質とリガンド(分子)の情報から推論 結果 備考 clang不足エラー 初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …

Style-Bert-VITS2(SBV2)でAssertionError: choose a window size 400 that is [2, 251]の対応方法

AI

初めに 開発環境 ライブラリ ver 初めに 以下の学習にて以下のエラーにて前処理が止まることがあります。こちらの対応をしていきます packages/torchaudio/compliance/kaldi.py", line 142, in _get_waveform_and_window_properties assert 2 <= window_size …

linuxのscreen環境でスクロールができない時にする対応

開発環境 現象 対応方法 開発環境 Ubuntu 22.04 現象 linuxに仮想ターミナル化するライブラリがありますが、こちらを使用時にスクロールしても上部にあるものがスクロールされないことがあります。 対応方法 ホームディレクトリにある.screenrcファイルを編…

XREALで掴めるオブジェクトの設定を行う

初めに 開発環境 詳細 オブジェクト側の設定 1. Collider 2. RIgidbody 3. NRGrabbale Object オブジェクトの登録 初めに 以下の画像のように左側に自分で追加したオブジェクトをXREAL SDKを通して掴めるようにしていきます 開発環境 Unity 2022.3.42f1 XREA…

UnityでURPのLit shaderのモデルのmaterialのOffsetをスクリプトから変更する

初めに 開発環境 実装 スクリプトからshaderのテクスチャーのプロパティについて MaterialPropertyBlockを使ってマテリアルのプロパティの取得・更新 備考 初めに テクスチャの位置を変更した実装を行う際に スクリプトから任意のタイミングで materialのoff…

sbintuitions/sarashina2-70bを動かす

AI

初めに 開発環境 準備 実行 初めに ayousanz.hatenadiary.jp 開発環境 Linux H100(80GB) 準備 以下のライブラリをインストールします pip install torch --index-url https://download.pytorch.org/whl/nightly/cu121 pip install transformers==4.46.2 bits…

UnityでOpenAIのrealtime apiで入力した音声の文字起こしを取得する方法

初めに 開発環境 実装 初めに 以下の記事でUnityでOpenAIのrealtime apiを使って音声のやり取りを行いました。今回は以下のやり取りをする際に ユーザーが入力をした音声の文字起こしを取得したい場合の設定についてです。 ayousanz.hatenadiary.jp 開発環境…

sbintuitions/sarashina2-8x70bを試す

AI

初めに 開発環境 準備 推論 使用VRAM 初めに SB Intuitions株式会社から現時点で日本語の性能が一番高い(らしい)モデルが出たので、動かしていきます。 /日本語に特化した4,000億クラスのパラメータを持つモデルを公開‼️\公開モデル:Sarashina2-8x70B詳細…

microsoft/BitNetをWindowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに transformers v4.46.0にBitNetが追加されたみたいなので、今後加速しそうなBitNetの本家を触ってみます github.com MicrosoftのBitNetは以下です github.com 開発環境 Windows 11 CPU : AMD Ryzen 9 5900X メモリ : 64…

WindowsでGPT-SoVITSのローカルサーバーを立てる

初めに 開発環境 準備 環境作成とライブラリのインストール 各モデルの配置 サーバーコードの修正 ローカルサーバーの起動 クライアントからサーバーを実行 エラー対応 pyopenjtalkのインストールがうまくいかない場合 torch関連が上手くいかない CMakeがな…

UnityでOpenAIのrealtime apiのStream user audioを動かす

初めに 開発環境 実装の方針 音声フォーマットについて イベントタイプの一覧 session.created response.created rate_limits.updated conversation.item.created response.output_item.added response.output_item.done response.content_part.added respon…

unity-websocketを使ってUnityでWebSoketを通信を行う

初めに 開発環境 準備 簡単な接続確認 Unity Python クライアントから定期的にメッセージを送信 初めに UnityでWebSoketを使って通信をするのはいろいろ大変なので、どのライブラリを使おうかと調べていましたが、以下のライブラリを見つけたので動かしてみ…

promptttsppで合成音声を試す(Winodows)

初めに 環境 準備 実行 初めに 新しくttsのライブラリが出たので触ってみます ありがたいことに昨年度のlineサマーインターンの成果であるprompttts++のコードとデモを公開していただきました---paperhttps://t.co/2pZ7Vd057g demo (new)https://t.co/WnA5CC…

F5-TTSで音声合成を試す

初めに 構成要素の概要 エンコーダー(Encoder) デコーダー(Decoder) ボコーダー(Vocoder) 特徴的な部分 Sway Sampling ConvNeXT トレーニングと推論 トレーニングデータ 非自己回帰型TTS 環境 準備 ライブラリのインストール 事前学習モデルの配置 実…

crcmodのインストールでstream did not contain valid UTF-8のエラー対応

開発環境 詳細 開発環境 Windows python 3.10.11 uv 0.4.16 詳細 crcmod(==1.7)をインストールする際に以下のエラーが出ました。 error: Failed to prepare distributions Caused by: Failed to fetch wheel: crcmod==1.7 Caused by: Failed to run `C:\User…

arXivAPIを使って気になる論文を探してタイトルとサマリを表示する

初めに 開発環境 詳細 初めに 査読前の論文がアップロードされている arXivを気になったものを見ているものの気になるものを全て探すのは大変なので API経由で検索をしていきます 記事の内容のリポジトリは以下で公開しています github.com 開発環境 python …

Windows(WSL)にSingularityCEをインストールする

AI

はじめに 開発環境 インストール方法 必要なパッケージのインストール Go 言語のインストール Singularity のソースコードのダウンロード エラー対応 参考サイト はじめに Singularity は、高パフォーマンスコンピューティング(HPC)環境でのコンテナ実行を…

uvでrequirements.txtからインストールをする

参考 開発環境 内容 pythonのversionの固定 ライブラリをインストール 参考 (この記事はとても参考になっています) zenn.dev 開発環境 Windows 11 内容 requirements.txt を使って ライブラリをインストールするときのメモ pythonのversionの固定 以下で 特…

fish-speechのFine-tuningを独自データで行う

AI

初めに 環境 docker環境の作成 音声データセットの準備 ノーマライゼーション処理 文字お越しファイルの作成 セマンティックトークンのバッチ抽出 データセットをprotobufにパック LoRAの学習 学習後のLoRAの重みを変換 学習後のモデルを使って推論 備考 初…