あまり関心はなかったけど寝る前にYouTubeみてたらQwen3-TTSってのが凄いっていうのを見て反射的に遊んでみようと。Colabのやつやろうとしたら有料アカウントじゃないとできない手順じゃん。。。となり。とりあえず少しググって手順を探しては動かしたけどどうもMac用ではないらしい。「Qwen3-TTS Mac」でググるとなんと白井博士のページに行き着きやってみたという感じ。白井先生、Wiiのリモコンハックのときにご著書にお世話になりました。
[VibeCoding] #22 Qwen3-TTSをMacローカルで動かす|白井暁彦 aka しらいはかせ
あと以下も参考にしました。ありがとうございます。
Qwen3-TTSってなんだ?〜3秒の音声でボイスクローンできる最新AIを日本語環境で完全攻略〜 #Python - Qiita
というか本家(日本語)のREADME.mdの方が正確かも。
手順にしたがってやってみました。ちなみに仮想環境とかuvで一発セットがいいのでその手順です。uvはインストール済みとします。MacはMBP M4です。
brew install sox git clone https://github.com/hiroki-abe-58/Qwen3-TTS-JP.git cd Qwen3-TTS-JP # 以下で10行目のrequires-python = ">=3.9"をrequires-python = ">=3.12"に変更する vi pyproject.toml uv add faster-whisper # qwen-tts-demo...を実行するとNo found module "pytz" とかエラーが出る場合はこれでいれておく uv add pytz # pyproject.toml にしたがってライブラリインストールする uv sync # uv syncするといらないのかも?とりあえずやっておく uv pip install -e . source .venv/bin/activate # カスタムボイスの場合 qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --device mps --dtype float16 --no-flash-attn # 音声をクローンしたい場合 qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8000 --device mps --dtype float16 --no-flash-attn
モデルのダウンロードに10分くらいかかる。
サーバが起動したらブラウザでlocalhost:8000にアクセスします。
起動したら「参照音声」に喋らせたい音声ファイル(3秒くらいがいいようです)をドラッグ&ドロップし、参照音声のテキストがなければ、x-vectorなんとかにチェックをいれて、「合成するテキスト」に適当な文章を入れて、「音声生成」ボタンを押します。
10秒くらいしたら再生ボタンが押せるようになります。
いや。。。驚きでした。3秒くらいの音声でしたが、まさに僕の声でした。怖いですね。。。いろんないたずらができちゃいそうです。