なんかよくわからんやつの手順メモ（Qwen3-TTSで声マネ）

あまり関心はなかったけど寝る前にYouTubeみてたらQwen3-TTSってのが凄いっていうのを見て反射的に遊んでみようと。Colabのやつやろうとしたら有料アカウントじゃないとできない手順じゃん。。。となり。とりあえず少しググって手順を探しては動かしたけどどうもMac用ではないらしい。「Qwen3-TTS Mac」でググるとなんと白井博士のページに行き着きやってみたという感じ。白井先生、Wiiのリモコンハックのときにご著書にお世話になりました。

[VibeCoding] #22 Qwen3-TTSをMacローカルで動かす｜白井暁彦 aka しらいはかせ

あと以下も参考にしました。ありがとうございます。

Qwen3-TTSってなんだ？〜3秒の音声でボイスクローンできる最新AIを日本語環境で完全攻略〜 #Python - Qiita

というか本家（日本語）のREADME.mdの方が正確かも。

GitHub - hiroki-abe-58/Qwen3-TTS-JP: Japanese GUI + Whisper auto-transcription for Qwen3-TTS. RTX 5090 tested.

手順にしたがってやってみました。ちなみに仮想環境とかuvで一発セットがいいのでその手順です。uvはインストール済みとします。MacはMBP M4です。

brew install sox 
git clone https://github.com/hiroki-abe-58/Qwen3-TTS-JP.git
cd Qwen3-TTS-JP

# 以下で10行目のrequires-python = ">=3.9"をrequires-python = ">=3.12"に変更する
vi pyproject.toml 

uv add faster-whisper

# qwen-tts-demo...を実行するとNo found module "pytz" とかエラーが出る場合はこれでいれておく
uv add pytz 

# pyproject.toml  にしたがってライブラリインストールする
uv sync

# uv syncするといらないのかも？とりあえずやっておく
uv pip install -e .

source .venv/bin/activate

# カスタムボイスの場合
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --device mps --dtype float16 --no-flash-attn

# 音声をクローンしたい場合
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8000 --device mps --dtype float16 --no-flash-attn

モデルのダウンロードに１０分くらいかかる。

サーバが起動したらブラウザでlocalhost:8000にアクセスします。

起動したら「参照音声」に喋らせたい音声ファイル（３秒くらいがいいようです）をドラッグ＆ドロップし、参照音声のテキストがなければ、x-vectorなんとかにチェックをいれて、「合成するテキスト」に適当な文章を入れて、「音声生成」ボタンを押します。

１０秒くらいしたら再生ボタンが押せるようになります。

いや。。。驚きでした。３秒くらいの音声でしたが、まさに僕の声でした。怖いですね。。。いろんないたずらができちゃいそうです。