毎年開催させていただいている美術館との連携事業について準備作業中です。
出し物の1つに自分で作った造形に合った音楽をAIに作ってもらいそれでファッションショーをしようという流れになりました。
音楽生成といえばSuno AIなのでしょうけど(まだ触ったことがないです)、課金してないのでローカルで動かしたいと思ったわけです。今年始めくらいから色々と出ているそうでその中でできそうなものとしてACESTEPがありました。
で、とりあえず昨晩にごにょごにょやってMBP M4でも全く結果が出てこない状況でしたが。。。それでも動いたんですが、何回かインストールしていると動かなくなり。。。困ったなぁと。そのメモです。
手順の解説ページは色々とあるのですが、やはり大元を参照した方がよいようです。
手順はそれほど難しくないのですが。。。なぜか1度目は成功したのに次はうまくいかず。。。その原因がわかりませんでした。
最初は手順通りにPythonのvenvでやったんです。たぶん。でもuvを使うようになったのでそれで何回もインストールしてみたのですが全然動作せず。そもそもacestepが見つからないという状況に。。。ちなみにMacでは使い物にならないことがわかったので研究室のWindowsPCにアクセスして入れてみましたら。。。スムーズに動作しました。GPUは偉大なんですね。。。たぶん。
さて。Macは使えないのでどうでもいいのですがやはり気になりました。
最初にやったときにはbrewでいれたpython@3.14を使っていたようです。これでインストールする(python install -e .)と途中でエラーが出ます。3.14は対象外のようでそれ未満にしないといけないらしいんですね。
で、バージョン切替といえばuvかな。。。と思ってやったんですがpython install -e .を実行したときの挙動が全然違いました。なぜかは追ってません。。。すいません。
公式のページでもvenvでやっているのでそれでやるべきでしょうという結論になりました。しかも、pythonのバージョンは3.14未満にする必要があるとのこと。
で、以下、手順になります。pyを使う人はそっちでいいですね。僕は使いたくなかったので3.12をいれました。
brew install python@3.12
acestepをcloneします。
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
それから、python@3.12で仮想環境を作って仮想環境を活性化します。この仕組みがよく理解できてませんが、python3.12で呼び出しているのでその仮想環境のバージョンも3.12にセットされるようです。.pyhton-versionにセットされるのかな?
python3.12 -m venv venv source venv/bin/activate
一応、pythonのバージョンが3.12になっていることを確認しておきましょう。
python --version
あとはacestepをインストールするだけです。インストールログが100行くらい流れます。これでインストール完了します。uvだと20行くらいなんですよね。。。この違いはどこから来るのかわかっていません。エラーは出ていないんですよね。
python install -e .
起動は以下。https://localhost:7865にアクセスすればUIが見えますのでGenerateボタンを押せばサンプル生成が動作開始します。
http://127.0.0.1:7865
Generateボタンを押すとchecnpointもインストールするようですがどこに入るんだろうと思ったらacestepを無指定で起動するとデフォルトの場所に保存されるようです。.cache/ace-step/checkpointsあたりらしいです。指定して起動するとそこにモデルを保存できるらしいです。
さらに起動するときにパフォーマンス改善用の起動オプションもあるようです。そもそもMacに効くのかわかりませんが。。。mcpでしたっけ?Mac用のGPUに適合するのか?
acestep --torch_compile true --cpu_offload true --overlapped_decode true
とりあえずWindowsでやろうと思います。子どもたちが書いた歌詞に音楽がついてランウェイを仮装して歩く姿が早くみたいです😁
こういう「それっぽい」のがサクッとできるところがAI様々ですね。。。
でわでわ。でも、なぜuvではできないんでしょう?わかるかた教えて下さい🙇
色々とやりすぎて何をやっているのかわからなくなっています。。。ROS2+Gazeboもやりたい。Fusionでモデル作らないと。やりたいことに身体と時間が追いついていません。。。Questもやらないと、ピアノ開発もしたいし。うーん。。。AIに課金してコピーロボットを動かすしかないですかね。。。
■2025/11/1 追記(Windowsの場合)
Macは遅すぎて使い物にならないのでWindowsでやろうとしているもののなかなか曲生成ができない。GitHubのREADME.mdの通りに進めたときにライブラリ(pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126)をいれている途中でエラーがでて止まる。
途中で対策も提案してくれているのだけど、具体的にそれをどうやればいいかがわかりません。とりあえずいつもようにエラーメッセージをいれてぐぐってみると以下の記事が見つかりました(こういうときに今どきの人はちゃっぴーに聞くんでしょうね。。。)。
そこで対策として書かれていたのが以下のコマンドです。これをメモしてくてこの追記を書いています。
pip install typing-extensions
これを実行したあとに以下を実行するとインストールが正常完了しました。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
ただ。。。あいかわらずエラーが出る。。。Comfy UIだと機能制限があると見かけて避けていたけど使えるらしいのでそちらにしてみる。
■2025/11/1 追記(Windows & Comfy UIの場合)
とにかく時間がないのでとりあえず動かしてみたかった。Comfy UIは画像生成で遊んでいたので環境があった。Windows(GPU)が動作するのでMacに比べれば短時間で生成できる。以下の記事をトレースした。
ローカルで動く、ボーカル付音楽生成AI、ACE-StepをComfyUIにインストールしてみた! |umanikomi
checkpointsにいれるところでとまどったけど、comfy uiはパッケージの方にモデルをいれるフォルダが別に管理されているのを忘れていて。。。ダウンロードしたモデルの入れ方で躊躇したところだけ。checkpointsさえいれてしまえば開始でデモ曲が生成され、日本語でとりあえずアンパンマンのマーチの歌詞をいれて生成してみたら1分くらいで生成が完了した。曲調の指定がどうも意図した通りにはならないけど、そもそも曲調を言語化できるほど慣れてないところが難しい。
とりあえずあれこれいじりながら軽く生成できるのが面白い。こういう「それっぽいもの」を極めて短時間に作るのはgenAIの得意分野。
YouTubeにアップロードしたところで、実は歌詞は著作権はまだ有効だと知り。。。非公開になりまして。でも、公開するほどのものではないので。。。すいません。
感想はやはり「それっぽい」です。ただランダムではなくちゃんと楽曲にはなっています。メロディや音の乗せ方など違和感はありますが、素人が作るよりよっぽどいいという感じです。