memorandums

日々の生活で問題解決したこと、知ってよかったことなどを自分が思い出すために記録しています。

Notebook LMの音声生成機能おもろい

Notebook LMに先日投稿した論文を入れてみてもっと発展的な論文にするには?みたいなサーチをしたかったんです。

でも、できなかった。。。プロンプトの問題でしょうか?RAGっていうやつの性質でしょうか?あくまで論文PDFに沿った回答しか得られません。。。

まぁ、いいか、と思って右列に音声生成っていうメニューがあったのでボタンを押してみました。5分くらいかかったような気がしますがポッドキャストのような音声再生部品が出てきて再生ボタンを押してみると、論文の内容をポッドキャストで語っているような感じでした。

いや。。。面白い。

そういえば、以前、rebuild.fmで話題になっていたのを思い出しました。当時、AIには翻訳ツール以上の関心はなかったので気に留めていませんでした。

rebuild.fm

しかも、ベータ版のインタラクティブモードにすると、挙手して2人の会話に入り込むこともできます。

以前から授業をかけあい形式にできたらな。。。と思っていました。

よくありますよね?専門書とかで弟子と先生がかけあいで会話しながら説明を展開する形式の本が。

あれです。

残念ながら英語だけのようなので授業ではすぐには使えませんがいずれ使えるようになったら使わない手はないですね。

■追記

音声をスクリプトファイルにしたいと思い、ChatGPTに投げたら無料プランだったせいかできず、ChatGPTは2つの代替案を教えてくれました。whisperを使う方法と、Google Speech Recognitionを使う方法でした。python環境はmacに入っていたのでとりあえずやってみました。手順を個人メモします。

mkdir whisper_test; cd whisper_test
pipenv install git+https://github.com/openai/whisper.git

で、pythonファイルを作ります。a.pyとかしておきます。ChatGPTのおおせのとおりです。Notebook LMからダウンロードした音声ファイルはa.wavとしてこのフォルダ内に移動しておきます。

import whisper
model = whisper.load_model("small")
result = model.transcribe("a.wav")
print(result["text"])

あとは実行するだけ。

pipenv run python a.py

とりあえずテキストがターミナルに出力されました。音声は2人の掛け合いですが話者がわかりません。。。話者分離をしているエントリーもありましたので頑張ればできると思いますが、とりあえずここまで。変な話、これを台本にしてポッドキャストとかやれたりしますね。。。作家さんはいらないかも。。。

■おまけ

STORMを使ってみました。論文生成的なことができるかと思ってやりましたがそれよりもっと一般的なコンテンツ形式のようです。紹介ページを探すとWikipedia生成エンジンなんですね。それっぽい。日本の歴史を庶民視点で作って?ってやるとそれっぽいのを作ってくれました。

note.com

英語のみのようですが、結果をダウンロードしてChatGPTとかで翻訳してしまえばいいですね。もうレポートとかこれで瞬殺しちゃいましょう👍️