memorandums

日々の生活で問題解決したこと、知ってよかったことなどを自分が思い出すために記録しています。

AI試行雑記

インタラクションに参加して色々と刺激をもらったけど、やはり一番は暦本先生の以下のご発表だったと思う。頭部に装着したカメラから視線情報を取り込むことでマルチモーダルLLMに与える視界情報を注視点に限定することでより確かな理解を促すというご研究だった。

GazeLLM: 視覚情報を利用するマルチモーダル LLM

ご発表はこちらから視聴できます。3万円近い参加費を支払わなくても見れるんだから太っ腹ですよね。でも、インタラクションの醍醐味は○○なので時間コストを使っても現地にいくべき学会とは思います。

そもそも我々の目の特性から注視点は解像度が高いが周辺視野は解像度が落ちるがある。視線情報を利用することで注視点のみ高解像度でレンダリングしそれ以外は落とすことで計算量を減らそうという試みはどこかのHMDメーカーがやっていたと思う。

そういえば、昨年の福岡でのものづくりフェアでXactiを見た。以前から見かけたことがあったけど興味はなかった。なぜか興味がわいてパンフもらってきた。来年度の研究予算でぜひ買いたいなと思っていたところ。LLMにぶちこむという話はとてもいいと思う。ぜひ挑戦してみたい。

さて、学会出張から帰ってきたものの色々あって論文書きがなかなか進まない。ちょっと試してみたのが、論文書いている最中にZOOMの画面録画を使いながら考えていることやっていることを話しながら作業してみた。一人部屋じゃないととてもじゃないけどできないことだけど、発話しながら考えるというのはじっと考えるより脳が活性化する感じはする。悪くはいと思った。

上記のマルチモーダルLLMの研究を思い出して、録画した動画ファイルをNotebookLMに与えてみたが。。。やれたことは音声認識と要約だけだった。。。こういう発話に対してAIが能動的に助言してくれたら一人思考しながら作業が進められていい感じになると思う。何が焦点なのか自分でもわかっていないのでもう少し試行錯誤してみたい。

論文の話に戻す。

実験結果は既にあるものをどうまとめようかで手が止まっている。やればできるけどなかなか気が進まないという感じ。

試しに実験結果をまとめた表を画像としてChatGPT、Claude,Perplexity、DeepSeek、Geminiに与えてみた。

プロンプトにある程度の見方を与えているのもあるんだろうけど、結構、ちゃんとした考察がかけている。。。あとはこれを整理すればそれっぽい考察は完成してしまうのだ。

新しい研究に対してAIを利用することはまだできていないけど、これだけできるなら、研究プロセス全体をAIで支援受けることができるだろうと思う。

はてブでは毎日のようにこうしたAIを作業に活用したという有益なエントリーが発信されている。以下のはかなり参考になる。

Cursorとかいうやつを使ってみたらUnity効率上がりすぎた話|ギガビット@ゲームつくるひと

当研究室は応用ソフトウェア開発を演習や研究の軸にしているので学生さんにもAIを作業フローにいれて開発速度を上げる工夫を促す必要があると実感する。大学教員でどれくらいの人がそういう試行をしているのだろう。

AI環境はそれこそ毎日のように変化していく。それを教材に落とし込んでいくのはなかなか頭が痛い。。。大学で何を学ぶべきだろうか。。。恐らくはAIの使い方ではなく(←使い方はAIの進化によって常に変化するものだから)AIが生成したコードを理解する知識を身につけることとは思っている。

AIを利用することで、自分で一から発想して試行錯誤的にコードを1行1行書いていくこの時間は削減できるはずだし、自分の用途に合わせたちゃんと動くコードを見本として学習できるというのは効率の面でもいいと思う。

そうして削減した時間を理解に充てる。中身を理解する作業ももちろんAIを活用できると思う。そうなると自学自習できるはず。。。となると教員の役割は場や目標の設定とうまく行かないときのサポートになるのかな。。。とは思う。

どうだろう。。。やってみるしかない。