
「ChatGPTを使えば、PubMedの検索式を自動で作ってくれるらしい。臨床疑問を投げ込むだけで論文が集まるなら、もう文献検索に時間をかける必要はないのでは?」
ChatGPTが普及した2026年、PT・OTの間でこうした期待が広がっています。
しかし、PubMed掲載のChatGPT評価研究では、GPT-3.5の引用文献の55%、GPT-4でも18%が「実在しない捏造論文」であることが報告されています(Walters & Wilder, 2023)。
つまり、ChatGPTが提示した参考文献をそのまま信じてEBPに使うと、存在しない論文を根拠に患者さんに説明してしまう危険があるということです。
今回は、ChatGPTを文献検索に活用するための実践5ステップを、PubMed掲載の評価研究の数値とともに解説し、ハルシネーション(架空論文の生成)を回避するPT・OTの運用ルールまで一気通貫で示します。
情報の信頼性について
・本記事はBRAIN代表/理学療法士の針谷が執筆しています(執筆者情報は記事最下部)。
・本記事はPubMed掲載のChatGPT評価研究・生成AI×システマティックレビュー研究のデータを基に、PT・OT向けに再編集しています。
・著者は『文献検索の超基本|PT・OT・STのためのPubMed実践ガイド』(金芳堂、2026)の執筆者であり、本記事は同書第9章のエッセンスを抜粋・再構成したものです。
本記事の結論
- ChatGPTは「PICO定式化」「PubMed検索式の生成」「アブストラクト要約」「引用フォーマット整形」の4工程で大幅に作業を短縮できる
- しかし、参考文献の捏造率はGPT-3.5で55%・GPT-4でも18%に達するため、ChatGPT単独で引用論文を確定させるのは危険
- 安全運用の鍵は「ChatGPTで下書き→PubMedで原典裏取り」の2段階プロセスを徹底すること
- BRAINでは、ChatGPTを「臨床疑問を整理する壁打ち相手」として位置づけ、最終的な引用は必ずPubMedで実在確認してから採用している
以下、詳しく解説していきます。
【BRAINの判断】ブログは「入口」、書籍は「完結版」
本記事ではChatGPT文献検索の5ステップを概観しますが、書籍『文献検索の超基本』第9章では実際の検索画面・プロンプトテンプレート・失敗例の検証まで、172ページ+40本の動画でハンズオン解説しています。
「とりあえず使ってみたい」方はブログで、「臨床に確実に組み込みたい」方は書籍で、と使い分けてください。
なぜ今ChatGPT文献検索なのか
「忙しい臨床の合間にPubMedを開いても、検索式を組むだけで疲れてしまう」
これはPT・OTの誰もが感じている悩みです。
ChatGPTは、この「検索式を組む工程」を数十秒に短縮してくれます。
2024年にPharmaceutical Medicine誌に掲載された研究では、ChatGPT系の生成AIを使い68万件以上のRCT抄録からPICO情報を自動抽出することに成功し、レビュー作業の大幅な効率化が示されています(Reason et al, 2024)。
2025年にValue in Health誌に発表された30研究のSRでも、生成AIはPICO策定・データ抽出には有効と結論されています(Rashid et al, 2025)。
つまり、ChatGPTは「考えを整理する」「検索式の下書きを作る」「抄録を要約する」といった工程では実用レベルに達しているということです。
EBPの基本的な考え方については、別記事「EBP/EBMとは|リハビリ臨床への活かし方|PT・OTのための実践ガイド」で詳しく解説しています。
ChatGPTで文献検索する実践5ステップ

ここからは、PT・OTが臨床疑問から論文収集までをChatGPTで進める5ステップを順番に解説します。
Step1:臨床疑問をPICOに定式化する
最初のステップは、頭の中にある漠然とした臨床疑問を「PICO」に整理することです。
PICOとは、Patient(対象)/Intervention(介入)/Comparison(比較)/Outcome(アウトカム)の4要素で臨床疑問を構造化するフレームワークです。
PICOの詳細は別記事「PICO・PECOとは|臨床疑問を構造化する方法|PT・OT実践ガイド」で解説しています。
ChatGPTへのプロンプト例:
あなたは脳卒中リハビリの専門家です。 次の臨床疑問をPICO形式に整理してください。 出力は表形式で、Patient/Intervention/Comparison/Outcomeの4列にしてください。 臨床疑問:「脳卒中後の上肢麻痺に対してCI療法は通常リハより回復するか?」
このプロンプトを投げるだけで、ChatGPTは数秒で4要素に分解した表を返してくれます。
慣れてくれば、PECO(観察研究向け)・PICOS(研究デザイン込み)・SPIDER(質的研究向け)など派生フレームワークもChatGPTに使い分けてもらえます。
派生フレームワークの詳細は「PICO派生フレームワーク|PECO・PICOS・SPIDERの使い分け」を参照してください。
Step2:PICOからPubMed検索式に変換する
PICOが定まったら、次はPubMedで使えるBoolean検索式に変換します。
2026年にJ Nurs Scholarsh誌に発表された生成AIチャットボット研究では、システマティックレビューにおける検索戦略の開発は資源集約的な工程であり、生成AIによる自動化が有望なアプローチであると報告されています(Tam et al, 2026)。
ChatGPTへのプロンプト例:
先ほどのPICOをPubMedで使えるBoolean検索式に変換してください。 以下の条件を守ってください。 ・MeSH用語と自然言語キーワードを併記する ・AND/ORを適切に使う ・研究デザインフィルター(randomized controlled trial[pt])を最後にAND結合する ・検索式は1行で出力する
このプロンプトでChatGPTが出力する検索式の例は次のようになります。
((stroke[MeSH]) AND (upper extremity OR upper limb)) AND (constraint-induced movement therapy OR CIMT) AND (randomized controlled trial[pt])
MeSH用語の使い方は「MeSH用語とは|PubMedで使うシソーラスの基本」で解説しています。
PubMedの基本操作は「PubMedの使い方|PT・OTのための文献検索入門」と「PubMed検索方法|複数キーワードでの実践テクニック」を参照してください。
ここで重要な注意点:ChatGPTが提案した検索式をそのまま信じず、必ずPubMedに貼り付けて実際にヒットするかを確認してください。
ChatGPTは存在しないMeSH用語をそれらしく提示することがあります。
Step3:検索結果のスクリーニングを支援させる
PubMedで検索式を実行した後、ヒットした論文タイトルとアブストラクトをChatGPTに貼り付けて、PICOと合致するかを判定させることができます。
2025年にJ Med Syst誌に発表された産科領域のSRでは、ChatGPTとClaudeをスクリーニング工程に使った場合、両モデルとも一定の精度を示したものの、人間レビュアーとの完全一致には至らなかったと報告されています(Insuk et al, 2025)。
ChatGPTへのプロンプト例:
以下のPICOを満たすかどうか、各論文のタイトル+抄録を読んで○×△で判定してください。 判定理由も1行で添えてください。 判定が△のものは、何が不明確かを指摘してください。 PICO:(先ほど定義した内容を再掲) 論文1:(タイトル+抄録を貼り付け) 論文2:(タイトル+抄録を貼り付け) …
これにより、20本のヒット論文を1次スクリーニングする時間が大幅に短縮されます。
ただし、AIが「×(除外)」と判定した論文も、必ず人間がタイトル・抄録を目視確認してください。
2025年の19研究SRでは、生成AIの誤除外率は中央値28%(最大83%)と報告されています(Clark et al, 2025)。
つまり、AI単独のスクリーニングでは本来採用すべき論文の3割近くを誤って捨ててしまう計算になります。
スクリーニングの基本は「スクリーニング一次・二次の進め方|PT・OT文献レビュー実践」で解説しています。
Step4:アブストラクトの要約と批判的吟味
採用候補となった論文は、ChatGPTにアブストラクトを要約させて全体像を素早く把握できます。
ChatGPTへのプロンプト例:
この論文のアブストラクトを、以下の項目に分けて日本語で要約してください。 ・研究デザイン ・対象(n=、年齢、発症からの期間) ・介入内容と頻度 ・主要アウトカムと効果量(数値) ・結論 ・PT・OT臨床への示唆(自施設で再現可能か) アブストラクト:(貼り付け)
これだけでも、20本のアブストラクトを読む時間が3分の1になります。
ただし、ここでも数値の取り扱いには注意が必要です。
2025年にCochrane Evidence Synthesis and Methods誌で発表された20件のRCTでのデータ抽出比較研究では、研究目的・対象特性・介入内容では人間と概ね一致したものの、介入効果の数値抽出(効果量・p値・信頼区間)では人間の方が正確と報告されています(Bianchi et al, 2025)。
「FMA改善6.2点」とChatGPTが要約していても、原文では「FMA改善2.6点」のように数字を取り違えるケースが起こり得ます。
そのため、論文の核心となる数値(効果量・p値・MCID・サンプルサイズ)は必ず原文(特にResults / Tables)を開いて確認してください。
論文の読み方の基本は「論文の読み方|PT・OTのための批判的吟味」で解説しています。
Step5:引用情報のフォーマット整形
採用論文が確定したら、ChatGPTに引用フォーマット(APA、Vancouver、AMAなど)の整形を任せられます。
ChatGPTへのプロンプト例:
以下の論文情報をAPA第7版の参考文献リスト形式に整形してください。 著者:Wolf SL, Winstein CJ, Miller JP, et al. タイトル:Effect of constraint-induced movement therapy on upper extremity function 3 to 9 months after stroke ジャーナル:JAMA 年:2006 巻号:296(17) ページ:2095-2104 DOI:10.1001/jama.296.17.2095
これで、レポート・症例報告・抄録応募の参考文献リスト作成が一気に楽になります。
ただし、「論文情報そのものをChatGPTに作らせる」のは絶対に避けてください。
あくまで「自分でPubMedから取得した正確な情報を、フォーマットに整形させる」用途に限定するのが安全運用の鉄則です。
BRAINアカデミーで文献検索を体系的に学ぶ
「ChatGPTで文献検索を始めたいが、独学では不安」という方向けに、BRAINアカデミーでは3ヶ月間のオンラインプログラムを提供しています。
動画教材+課題+フィードバックで、PubMed検索からAI併用まで体系的に学べます。
詳細は BRAINアカデミー公式ページ をご覧ください。
ChatGPTの限界とハルシネーション対策

ChatGPTを文献検索に使う際、PT・OTが必ず知っておくべき限界が「ハルシネーション(架空論文の生成)」です。
捏造率:GPT-3.5で55%、GPT-4で18%
2023年にScientific Reports誌に発表された636引用文献の検証研究では、ChatGPT-3.5が生成した参考文献の55%、GPT-4でも18%が「実在しない捏造論文」だったと報告されています(Walters & Wilder, 2023)。
さらに、捏造でない実在引用にも、GPT-3.5で43%・GPT-4で24%に「著者・タイトル・年・ページ番号などの誤り」が含まれていました。
つまり、GPT-4でも「正確な引用情報」と言えるのは全体の約6割にすぎないということです。
他の医療領域でも同様の傾向
2026年にBMC Oral Health誌に発表された5つの大規模言語モデル比較研究では、5モデルが提示した参考文献のうち37.7〜43.9%が検証不能だったと報告されています(Liu et al, 2026)。
2026年のJ Glaucoma誌に掲載された4 AIモデルのPubMed引用生成精度研究でも、モデル間で精度に大きな差があり、すべてのモデルで一定割合の誤引用が観察されました(Civelekler et al, 2026)。
2026年のAnn R Coll Surg Engl誌に発表されたAI生成医療情報の参考文献検証では、AIが提示した引用の信頼性・透明性に課題があり、独立した検証が必須と結論されています(Sidhu et al, 2026)。
2026年のBMJ Open誌に発表された生成AIチャットボットの医療誤情報監査でも、AIによる引用情報の正確性・読みやすさに領域横断的な課題が示されています(Tiller et al, 2026)。
ハルシネーション回避の3つの鉄則
BRAINでは、ChatGPTを文献検索に使う際の3つの鉄則を運用ルールにしています。
- 引用論文はChatGPTに作らせない:必ずPubMedで検索して、自分で著者・タイトル・年・PMIDを取得する
- 提示された引用は全件PubMed検索で実在確認:PMID・著者・タイトルの3点をPubMedで突合する
- 核心数値は原文Resultsで再確認:効果量・p値・サンプルサイズはChatGPTの要約を信じず、必ずPDFを開く
AI文献検索ツール全般の落とし穴と運用フレームワークについては、別記事「AI文献検索ツールの落とし穴|PT・OTのための運用フレームワーク」で詳しく解説しています。
書籍では「実画面とプロンプトテンプレート」まで完結
書籍『文献検索の超基本』第9章では、本記事の5ステップを実際のChatGPT画面のスクリーンショットと動画で完全解説しています。
172ページ+40本の動画でハンズオン学習できる構成のため、「読む→真似する→自分の臨床疑問でやってみる」の3ステップで、来週の臨床から使えるレベルに到達します。
独学で「なんとなく使う」段階から脱却したい方は、ぜひ書籍と本記事を併用してください。
他のAI文献検索ツールとの使い分け
ChatGPT以外にも、文献検索に特化したAIツールが複数登場しています。
主要ツールの特徴を簡単に整理すると次のとおりです。
Elicit|論文の自動要約と表抽出が強い
Elicitは、PubMed・Semantic Scholarをバックエンドに、論文を自動で要約・表形式で比較してくれます。
詳しくは「Elicitの使い方|AI文献検索ツールの実践」をご覧ください。
NotebookLM|PDFを取り込んだ深掘り対話に強い
NotebookLMは、自分が選んだPDF論文だけを情報源にAI対話できるため、ハルシネーションのリスクを抑えられます。
詳しくは「NotebookLMで論文スクリーニング|PT・OT実践ガイド」をご覧ください。
Consensus|エビデンスレベル付きの回答に強い
Consensusは、臨床疑問に対して「Yes/No/Possibly」と複数論文の合意度を示してくれます。
詳しくは「Consensusの使い方|エビデンス特化AI検索」をご覧ください。
Semantic Scholar|引用ネットワーク追跡に強い
Semantic Scholarは、論文の引用関係を可視化し関連研究を芋づる式に発見できます。
詳しくは「Semantic Scholarの使い方|引用追跡で関連研究を発見」をご覧ください。
Perplexity|最新情報の収集に強い
Perplexityは、Web検索と組み合わせて最新の研究動向・ガイドライン情報を収集できます。
詳しくは「Perplexityの使い方|最新情報収集AI」をご覧ください。
ChatGPT vs Elicit vs NotebookLM vs Consensus 比較表
| 項目 | ChatGPT | Elicit | NotebookLM | Consensus |
|---|---|---|---|---|
| 主な強み | 汎用的な対話・整形 | 論文の自動要約・表比較 | PDFベースの深掘り対話 | エビデンス合意度提示 |
| 情報源 | 学習データ全般 | Semantic Scholar等 | ユーザー指定PDF | 査読論文DB |
| ハルシネーション | 高(GPT-4で18%捏造) | 中(要原典確認) | 低(ソース限定) | 低〜中 |
| PubMed検索式生成 | ○(要検証) | △ | × | × |
| 抄録要約 | ○ | ◎ | ◎ | ○ |
| 引用情報の整形 | ○ | ○ | △ | △ |
| 料金 | 無料/月20ドル〜 | 無料/月12ドル〜 | 無料 | 無料/月8.99ドル〜 |
| PT・OTの推奨用途 | PICO整理・検索式下書き | 論文の横断比較 | 採用論文の精読 | 臨床疑問の方向性確認 |
BRAINでは「ChatGPTで構造化→Elicitで一覧化→NotebookLMで精読→Consensusで方向性確認→PubMedで原典裏取り」という多段運用を推奨しています。
まとめ|ChatGPT文献検索を安全に使うために
ChatGPTは、PT・OTの文献検索ワークフローを劇的に短縮できる強力なツールです。
本記事で紹介した5ステップ(PICO定式化/PubMed検索式変換/スクリーニング/要約/引用整形)は、すべて今日から実践できます。
一方で、引用文献の捏造率がGPT-4でも18%に達する以上、ChatGPT単独で引用論文を確定させることは絶対に避けてください。
「ChatGPTで下書き→PubMedで原典裏取り」の2段階プロセスを徹底することが、安全運用の絶対条件です。
EBPの実践に文献検索は不可欠ですが、検索だけで臨床判断が完結するわけではありません。
セラピスト自身の専門的判断と患者の価値観を統合する全体像は、別記事「EBP/EBMとは|リハビリ臨床への活かし方|PT・OTのための実践ガイド」で確認してください。
次のステップ:書籍『文献検索の超基本』第9章で深掘りする
本記事で紹介したChatGPT5ステップを、172ページ+40本動画で動画付きで完全解説しています。
「ブログを読んだ→次の症例で実践したい」と感じたら、書籍を手元に置いて1章ずつワーク形式で進めるのが最短ルートです。
ChatGPT以外のAIツール(Elicit/NotebookLM/Consensus/Semantic Scholar)も同じ書籍内で網羅しているため、1冊で文献検索のAI時代に対応できます。

BRAINアカデミー
エビデンスに基づく脳卒中リハビリテーションを体系的・網羅的に学ぶ、3ヶ月間のオンライン学習プログラムです。①動画教材 ②課題 ③フィードバックを通じて、EBMを身に付けましょう!
詳細はこちら

書籍|文献検索の超基本
「先輩に聞けばいい」から卒業しませんか?
本書は、PT・OT・STが最短で文献検索を身につけるための一冊です。172ページ+40本の動画で、PubMed検索からAI活用まで実践的に学べます。ChatGPT、Elicit、Semantic ScholarなどのAIツールを”なんとなく使う”のではなく、正しく臨床に活かす方法を体系的に解説。文献検索は、早く身につけた人が圧倒的に伸びます。エビデンスを自分で調べられるセラピストになりませんか?
参考文献
- Walters WH, Wilder EI. Fabrication and errors in the bibliographic citations generated by ChatGPT. Sci Rep. 2023;13(1):14045. PMID: 37679503
- Reason T, et al. Automated Mass Extraction of Over 680,000 PICOs from Clinical Study Abstracts Using Generative AI: A Proof-of-Concept Study. Pharmaceut Med. 2024. PMID: 39327389
- Rashid M, et al. Generative AI in Systematic Reviews. Value Health. 2025. PMID: 40848037
- Tam WSW, et al. Development and Evaluation of a Generative AI Chatbot for Database Searching in Systematic Review. J Nurs Scholarsh. 2026. PMID: 41808290
- Insuk S, et al. How Well Do ChatGPT and Claude Perform in Study Selection for Systematic Review in Obstetrics. J Med Syst. 2025. PMID: 40906005
- Clark J, et al. Generative AI in Systematic Reviews: a systematic review. 2025. PMID: 41626912
- Bianchi S, et al. Data extraction by AI vs human reviewers in 20 RCTs. Cochrane Evid Synth Methods. 2025. PMID: 41019842
- Liu L, et al. Performance of five large language models in oral and maxillofacial surgery exam questions. BMC Oral Health. 2026. PMID: 41792703
- Civelekler M, et al. Comparing the Accuracy of Four Artificial Intelligence Models in PubMed Citation Generation for Glaucoma Research. J Glaucoma. 2026. PMID: 41886462
- Sidhu RS, et al. Trust, truth and transparency: analysing the references underpinning AI-generated surgical information. Ann R Coll Surg Engl. 2026. PMID: 41847748
- Tiller NB, et al. Generative artificial intelligence-driven chatbots and medical misinformation. BMJ Open. 2026. PMID: 41980854

