memorandums

日々の生活で問題解決したこと、知ってよかったことなどを自分が思い出すために記録しています。

えーあいで文献検索(試行中)

論文を書くときにDeepLやGrammarlyやPaperpalを利用してきた。もちろん、これだけでは自信がないのでネイティブチェックはほぼ必ず受けるようにしてきた。

一方、文献検索はGoogle Scolarが主だった。手動で探す。。。結構、大変。当たり前のやらなければならない作業なのだがAI時代にこれをやっていてもなぁ。。。ということで、皆さんご存知のPerplexityやSciSpaceやElicitを使うことになる。。。でも、これらがなかなかよい仕事をしてくれない。文献が古いものが多く、どうみても関連性が高いとは言えない情報ばかりが引っかかってくる。無料だからかもしれない。有料プランならもっとよい結果が得られるのかもしれない。

結局、Google Scholar、あとは引用数の多い文献を探すためにWoSあたりを利用することになる。これも今考えてみると前時代的な方法なのだと思う。。。いや、僕が文献探しが下手くそなだけなんだと思う。

で、話はAI。

最近これ↓を読んで自分なりにまとめてみたあとに「あー、AIは使えない、自分でやった方が早いよなぁ〜」と文句をいう前にもっともっと使っていけばいいんじゃないか?使い方が悪いんじゃないか?という発想に切り替わってきた。ありがとう。

memorandums.hatenablog.com

やれば自分でできることはわかっているけど時間がかかる。この著者と動機は大差ない。結果が同じならもっと楽な方法を試したくなるのが人間だ。

原点に帰ってChatGPTを使ってみた。Geminiも。Perplexityも使ってみた。

文章作成の支援にガンガン使ってみた。まぁまぁいい感じの文章にはなったのでとりあえずそれぞれの文の主張を支持する文献を探してくことになる。

ちなみにこれまでは逆のやり方をしてきた。優良(引用数が多く内容的にも適合している)な文献をまず探してきてその文献を並べてストーリーをイメージして文章にしていく。つまり、文献検索を先にやるので必ず正確な文献をベースにストーリーを作れるわけだが。。。文献も膨大にあるので読んでは捨てる、というのを繰り返していかなければならない。

ちなみに、まだまだ論文を書き慣れていないときには文献調査は完璧にやらなければならないと思っていた。完璧のイメージを使えるのは難しいが、とにかく調べ倒してそういう研究が存在していないことを証明しようとしていた。。。でも、実際はそんなことは不要だということに気づく。論文はストーリーが大事なのだ(特にリサーチギャップ)。そうじゃないストーリーも当然あるのだ。あくまで論文では自分の考えを文章にして説明するものであるのだから、文章として書いた主張を裏付けるデータさえあればよくて、文では説明していないことについて間違っていないことを証明する必要性などないのだ。。。そんなことをしてたら論文なんて書けるはずもないのである。

脱線した。

AIに頼むとサーッと文献情報をリンクしてくれたら何もいうことはないのだけど、ChatGPT、Gemini、Perplexityもそれぞれダメだった。あ、いずれも無料プラン。だからダメかもしれない。。。でも本質的にダメなのでたぶんダメなんだろうと思う。有料プランに切り替えてもいいんだがどうもメリットが見えない。とりあえずPerplexityはそれっぽい文献リストを出してくれはするのだけど、どの文献もダメダメだった。はるしねーしょんだらけ。。。

つまり、文章を要約したり要点を抽出することはできても、既存のネット情報とリンクさせるのはまだまだ苦手なよう。これらは内容が悪くてもきちんと文献情報に対応づけられるSciSpaceやElicitを使うべきだろう。。。というところに戻ってくる。でもな。。。という感じ。

で、たまたまネットを検索していると一般人向けの記事に ハルシネーション対策の1つとしてはBingを利用するとよい を見かけたのを思い出した。もしやと思いCoPilotで検索してみると「ビンゴ」だった。。。リンクは僕が見た限りはすべて正しい文献情報だった。。。どうしてこのような違いが出るのだろうか?CoPilotは何をやっているのだろうか?RAG的なことをやっているということ?モデルと検索エンジンを組み合わせるというヤツ?よくわからないが。。。とりあえず、AIで文献検索できそうな光が見えてきた。うん。

ということで色々やってみようと思う。とにかく使わないとわからない。

また脱線した。。。プロンプトを色々と試してみて関連研究を手早く得る方法を試してみたい。

ちなみにAIを使うことがチートじゃないか。。。ということはあると思う。実際にジャーナルではAI使用について宣言がある。投稿に際してどのAIを使ったか明示することも求められる。文章作成についてはそうだろうけど文献検索についてはどうだろうか?言ってしまえば助手を雇って調査させるのもチートといえばチート。チート=不正とは言えないので難しい。不正は当然よくない。

ちなみにAIを研究に活用することを極めた先人が情報を公開してくれている。検索すると必ずヒットするのが以下の先生。医療分野の方、

note.com

ノートを公開してくれている。有料もある。GPTsというキーワードもこの方の情報を追っかけてしった。いまさらだけど。。。有料でも皆が同じ苦労をすることはない。時間をお金で買えばいいよということ。ただ、医療分野なのでCS分野で誰かやってくれればいいのに。。。と思うのだけど(いや先人は必ずいるはずだけど。。。)何となくチート感があるのであまり公開したくない気持ちもわからなくはない。情報分野であればあるほどその危険さがわかるのだと思う。難しいところだ。。。

ちなみに世界で最も多く論文を出版している分野はどこかというと医療である。恐ろしいくらい多い。。。

Clarivateが集計した論文数を研究分野別に表したグラフ(表?)の一部が以下である。医療はCSの7倍の文献数が出版されているということになる。研究者の人口比が影響しているのかもしれないし、論文生産の文化、もっというと生産性が違うのかもしれない。それくらい大量に生産することを考えたらできる限りスムーズに生産したいという気持ちが湧くのは当然だと思う。

ということで。あれこれやってみるぅ。というかもう18時か。。。とりあえず帰るか。家につくのは2時間後だからなぁ。。。電車で続きをやろう🚃

■2025/1/26(翌日)

CoPilotがうまくいく理由が以下の一般向け記事に書かれていた。そうか。。。CoPilotはBingと連携しているからリンク情報が適切だったりするわけか。。。AI使っていかないと周回遅れどころじゃないな。。。WebChatGPTって拡張機能をいれてみた。検索に時間はかかるけど結果は正しいよう。

ChatGPTでは参考文献は参照不可?実用的な対処方法3選も紹介 - AI総研|AIの企画・開発・運用を一気通貫で支援

ただ、その後、CoPilotを使って検索したら全然ダメだった。。。プロンプトとの相性なんだろうか?最初CoPilot使ったときはほぼすべてのリンクが有効だったのに。。。結局、他のモデルと同じ結果になった。なので、投稿したけど一旦下書きに戻した。

結局、SciSpaceとElicitに戻した。でも、その後、以前少しだけ使ったConsensusでやってみるといい感じの結果だっが。これでもいいのかもしれない。3つ並べて検索して良いとこ取りをしようという感じ。

検索結果で示されるDOIやリンクは正しくない理由について調べた。プロンプトが悪いのか?論文タイトルで再検索すると現存する文献もあったりなかったり。プロンプトを変えたら正しいDOIが出てきた。プロンプトだな。

異なる文節で同じことを質問すると人間であれば関係性がわかるけどモデルにとっては曖昧な指示になる場合があるということか。一つの文節にまとめて入れたら所望の答えが出てきた。

一つ例を示す。

「○○に関する文献情報を検索してください。その文献にはDOIを含めてください。」だとうまくいかない。「○○に関する文献情報(APAフォーマット、DOIつき)を検索してください。」とすると正しいリンクがついた。ということが言いたかった。どのモデルも日本語で書いてほぼ問題がない。ちょっと前であれば日本語でプロンプトを入れると動作しなかったけど。静かに進化している。。。

今朝、上記に引用した先生が新しいnoteを出されていた。フォローしたので通知が来てた。まさにビンゴ的なノートだった。DeepSeekなるものが出たらしい。医療分野なので使えるかどうか不明だけどこれも見てみよう。

DeepSeek検索:高性能LLMによる効率的なエビデンス収集|genkAIjokyo|ChatGPT/Claudeで論文作成と科研費申請

DeepSeek、確かに早い。早いし、プロンプトを変えたらバッチリの文献が見つかった。。。文献検索自体がAIによってコモディティ化すると。。。論文に参考文献を載せるのはその主張を裏付けを探す手間がかかっていた時代のことであって、それを込みで立証しようというのがこれまでの論文の体裁だったと思う。でも、

ここまで文献検索が簡単になるとどうだろう?その先にあるものを想像してみる。

論文の形式そのものが変革してよい時代がくるような予感がしている。。。つまり、論文はRQとMethodとResultとDiscussionだけでよい気もする。AbstractもAIが論文本体から自動的に生成すればいいような気もする。

2,3日使ってきたけど、やはりDOIどころか存在しない論文を提示する問題が大きい。。。もうキーワード検索の方が早いじゃん。。。という感じすらする。

その中で、比較的まともなのは Consensus だと思う。プロンプトを工夫すれば他のモデルでもよい結果が得られるのかもしれないがあまり時間はかけられないので。。。とりあえず思いついたワードをいれたらそれっぽい答えが出てきて、その文献がそもそも存在しないといことがまずない(たぶん全くない)。これは忙しい社会人にとっては非常にありがたい。