
「論文を読む時間が、どうしても確保できない…」
臨床業務に追われる中、PubMedで集めた論文の山を前にして、こう感じたことはないでしょうか。
1次スクリーニング(タイトルと抄録のチェック)、2次スクリーニング(本文の精読)、データ抽出、批判的吟味…文献検索の後工程は、想像以上に時間がかかります。
そこで活用したいのが、Googleが提供する文献読解AI「NotebookLM(ノートブックエルエム)」です。
今回は、NotebookLMの基本操作から、1次・2次スクリーニングへの活用法、他のAIツールとの使い分けまで、PT・OT・STが今日から使える形で解説します。
情報の信頼性について
・本記事はBRAIN代表/理学療法士の針谷が執筆しています(執筆者情報は記事最下部)。
・本記事はNotebookLMの公式仕様および、AIによる文献スクリーニングの精度を検証したシステマティックレビュー研究のデータを基に解説しています。
本記事の結論
- NotebookLMはGoogleアカウントだけで無料利用できる、文献読解に特化したAIツール
- 1次スクリーニング・2次スクリーニング・データ抽出・批判的吟味のすべてに活用できる
- 他のAIツール(ChatGPT・Elicit)と用途を分けることで、文献検索ワークフロー全体の時間を大幅に短縮できる
以下、詳しく解説していきます。
NotebookLMとは?論文読みに使える3つの理由
NotebookLM(ノートブックエルエム)は、Googleが開発した文献読解に特化したAIアシスタントです。
アップロードした文献(PDF・URL・テキスト等)を読み込み、要約・データ抽出・質問応答などを行ってくれます。
類似のAIツール(ChatGPTやGemini)との大きな違いは、「自分が指定した情報源だけを根拠に回答する」点にあります。
この特性により、NotebookLMは「持っている文献を深く理解する」用途に圧倒的に強いツールになっています。
セラピストの文献検索ワークフローで、NotebookLMが特に役立つのは以下の3つの場面です。
- 1次スクリーニング:50本以上の論文タイトル・抄録から、取り込み基準・除外基準に該当するものを判定する
- 2次スクリーニング:絞り込んだ論文の全文から、対象・介入・アウトカム・結果のデータを抽出する
- 批判的吟味:研究デザインの妥当性、バイアスリスク、結果の臨床的意義を検討する
そして、NotebookLMの大きなメリットは「無料で使える」ことです。
Googleアカウントを持っていれば、追加の登録や課金なしで、すぐに使い始められます。
※ 詳しくは別記事「【簡単】PubMedを使った文献検索のしかた【初心者向け】」で、NotebookLMにアップロードする前段階の文献収集方法を解説しています。
NotebookLMの基本操作|5ステップで使い始める
NotebookLMを使い始める手順は、以下の5ステップです。
STEP1:Googleアカウントでログイン
NotebookLMの公式サイト(https://notebooklm.google/)にアクセスし、「Try NotebookLM」のボタンを押します。
Googleアカウントの情報(メールアドレスとパスワード)を入力すれば、ログイン完了です。
Googleアカウントを持っていない方は、先にアカウントを作成してください(アカウント作成ページから無料で作れます)。
STEP2:「+ ノートブックを新規作成」を押す
NotebookLMのトップページで、「+ ノートブックを新規作成」ボタンを押します。
すると、文献情報をアップロードする画面が表示されます。
STEP3:論文ファイル(PDF)をアップロード
「ソースをアップロード」エリアに、論文のPDFファイルをドラッグ&ドロップします。
1つのノートブックには、最大50個までソース(文献ファイル)を追加できます(2026年4月時点)。
PDF以外にも、Webサイトのリンク・Googleドキュメント・テキストファイル・YouTubeのURL・音声ファイルなど、多様な形式に対応しています。
STEP4:データを抽出する文献を選択する
左側のソース一覧から、解析対象とする文献にチェックを入れます。
初期状態ですべての文献が選択されていますが、特定の文献だけに絞ってデータを抽出することも可能です。
STEP5:チャット欄に指示を入力する
画面中央下部のチャットボックスに、文献に対して聞きたいことを日本語で入力します。
入力する指示の質によって、得られる回答の精度が大きく変わります。
後述する「1次スクリーニング」「2次スクリーニング」のセクションで、具体的な指示文の例を紹介します。
活用法①|1次スクリーニングの負担を一気に減らす
1次スクリーニングは、PubMed等で集めた論文を「タイトルと抄録だけを見て、取り込み基準・除外基準に該当するか判定する」工程です。
50〜100本の論文を1本ずつ目視チェックすると、慣れたセラピストでも数時間かかります。
NotebookLMを使うことで、この時間を大きく短縮できます。
2025年に学術誌Psychiatryで発表されたNotebookLMの文献レビュー活用評価研究では、Army STARRS関連の22本の論文をアップロードし、プロンプト設計次第で文献要約・質問応答が有効に機能する一方で、新規論文の検索はできないこと・引用の正確性に弱点があることが報告されています(Shor & Greene, 2025)。
さらに2026年にJMIR Medical Informaticsで発表された気道疾患の臨床意思決定支援研究では、NotebookLMをベースにした専門家システムが臨床判断の一貫性を向上させたと報告されており、リハビリを含む医療分野への応用可能性が示唆されています(Hsu & Hsu, 2026)。
ただし、NotebookLM単体の大規模スクリーニング精度(感度・特異度)を検証した臨床RCTはまだ限定的です。AIの判定は「下調べ」と捉え、最終判断は必ずセラピスト自身で行うことが安全です。
具体的な使い方
PubMedで検索結果をエクスポート(CSVやテキスト形式)し、NotebookLMにアップロードします。
そして、自分が設定した取り込み基準・除外基準を伝え、判定を依頼します。
例えば、以下のような指示文です。
「以下の取り込み基準・除外基準に基づいて、各論文を『取り込む/除外する/判定不能』の3つに分類してください。
【取り込み基準】
・対象:脳卒中後の成人(18歳以上)、Fugl-Meyer Assessment Upper Extremity(FMA-UE)22点以下の重度上肢運動障害
・介入:課題指向型訓練(Task-Oriented Training)
・比較:通常のリハビリテーション、他の訓練法、または無介入
・アウトカム:FMA-UEを評価
・研究デザイン:ランダム化比較試験、準実験的研究、システマティックレビュー
【除外基準】
・対象:パーキンソン病、外傷性脳損傷など脳卒中以外
・症例報告、ナラティブレビュー
各論文について、判定の理由も簡潔に教えてください。」
このように指示すると、NotebookLMが各論文の抄録から判定根拠を抽出し、表形式で結果を出してくれます。
人間の目視チェックよりも漏れが少なく、判定根拠も明示されるため、後で再確認しやすいのが大きな利点です。
ただし、最終判定は必ず人間が行ってください(AIの判定は「下調べ」と捉えるのが安全です)。
【コラム】LLM全般による1次スクリーニング研究の現在地
NotebookLM(Gemini基盤)の検証研究はまだ数が限られますが、LLM全般を使った1次スクリーニングの精度・効率化研究は、2024〜2025年に急速に蓄積されています。ここでは代表的な研究を紹介します(いずれもNotebookLM自身の研究ではない点に注意)。
■ GPT-4による大規模スクリーニング(環境系SR)
約12,000件のエビデンス統合データでGPT-4を検証。リコール95%を維持しつつスクリーニング時間を75%削減できたと報告されています(Nykvist & Macura, 2025 — ただし対象は環境系SRで、臨床SRへの外挿には注意が必要)。
■ 6モデルLLMアンサンブル(Cochraneレビュー)
GPT-3.5/4/4o・Llama 3・Gemini 1.5 Pro・Claude Sonnet 3.5の6モデルを23件のCochrane SR(n=119,695)で検証。LLM-人間アンサンブル(AIと人間の協働)で作業量37.55〜99.11%削減できたと報告されています(Sanghera & Thirunavukarasu, 2025, JAMIA)。
■ GPT-3.5/4の3層スクリーニング(臨床SR)
双極性障害治療の2件のSR(論文計4,527本)でGPT-3.5/4を検証。3層戦略で感度0.962/0.943・特異度0.996/0.855を達成(Matsui & Utsumi, 2024, JMIR)。
これらの研究は「LLM全般」がスクリーニング支援に有効であることを示していますが、モデルごとに精度特性は大きく異なり、NotebookLM(Gemini基盤)でそのまま同じ性能が出るとは限りません。読者が実際に使う際は「自分のSRテーマで小規模テスト→精度確認→本格運用」の順で検証することをおすすめします。
ChatGPTを使った文献検索・PICO定式化の具体フローは、別記事で詳しく解説しています(近日公開):
→ ChatGPTで文献検索する方法|PICO定式化から検索式作成まで
活用法②|2次スクリーニングでデータ抽出を一気にやる
2次スクリーニングは、1次で絞り込んだ論文の全文を読み、研究の詳細データを抽出する工程です。
10〜20本の論文を全文精読してデータを表にまとめると、慣れていないセラピストだと丸1日以上かかることもあります。
具体的な使い方
1次スクリーニングで残した論文の全文PDFをNotebookLMにアップロードし、以下のような指示を出します。
「アップロードした全論文について、以下の項目を表形式でまとめてください。
・著者名と発表年
・対象患者の人数・平均年齢・重症度
・介入群と対照群の内容(頻度・時間・期間)
・主要アウトカムと評価時期
・主要結果(平均差、信頼区間、p値、効果量)
・研究デザインの限界・バイアスリスク」
このような指示を出すと、NotebookLMが10本以上の論文から該当データを抽出し、比較表として出力してくれます。
数本の論文を比較するだけで、研究全体の傾向が一目でわかる表が、数分で完成します。
関連する内部記事として「有料の英語論文を無料で入手する4つの方法」も併せて参照すると、NotebookLMにアップロードする論文を効率的に集められます。
活用法③|批判的吟味と臨床応用の検討
NotebookLMは、論文の批判的吟味(Critical Appraisal)にも使えます。
例えば、以下のような指示で、研究デザインの妥当性を検討してもらえます。
「この論文の研究デザインについて、以下の観点から評価してください。
・対象集団の選定方法に偏りはないか
・介入のランダム割り付けは適切か
・盲検化はされているか
・脱落者の扱いは適切か
・主要アウトカムの妥当性
・結果の臨床的意義(効果量・MCID)」
さらに、自分の担当患者さんに当てはめて検討する指示も有効です。
「この研究の対象患者と、私の担当患者さん(70歳・脳卒中発症3ヶ月・FMA-UE 18点)の特性を比較し、研究結果を臨床応用する際の注意点を3つ挙げてください。」
このように、「論文を読む」だけでなく「読んだ内容を自分の臨床に翻訳する」段階までAIに手伝ってもらえるのが、NotebookLMの強みです。
NotebookLM・ChatGPT・Elicitの使い分け
「ChatGPTやElicitもあるけど、どう使い分けたらいいの?」と疑問に思う方も多いと思います。
結論として、3つのツールは「使う場面が違う」ので、どれか1つに絞るのではなく、用途に応じて使い分けるのが正解です。
- ChatGPT:文献検索の前段階で使う(臨床疑問のPICO定式化、検索式の作成、研究デザインの選定)
- Elicit:文献検索の幅出しに使う(PICOから関連論文を広く拾う、Semantic Scholar由来の論文を一覧化)
- NotebookLM:手元の文献を深く読み込む(PubMedで集めた論文の1次・2次スクリーニング、データ抽出、批判的吟味)
つまり、文献検索ワークフローの「前段階:ChatGPT」「広く拾う:Elicit」「深く読む:NotebookLM」と役割を分担すると、効率が一気に上がります。
NotebookLMを使うときの3つの注意点
NotebookLMは便利なツールですが、使うときに必ず守るべき注意点があります。
注意点①:原文確認は必須
NotebookLMは「アップロードした文献だけを根拠に回答する」設計のため、ChatGPTのようなハルシネーション(事実と異なる出力)は起こりにくい仕組みです。
ただし、ゼロではありません。
抽出されたデータ(数値・サンプル数・効果量など)は、必ず原文に戻って確認してください。
NotebookLMは回答に「ソース番号」を付けてくれるので、根拠となる箇所をすぐに参照できます。
2025年に発表された19研究の系統的レビューでは、生成AIを使った文献検索・選択で中央値28%の論文が誤って除外され、検索段階で中央値91%の論文を取り逃したと報告されています(Hossain et al, 2025)。
つまり、AIだけで完結させると重要な研究を見落とすリスクがあるため、人間によるダブルチェックは必須です。
注意点②:患者の個人情報はアップロードしない
NotebookLMはGoogleのクラウドサービスです。
カルテ情報・患者の氏名・生年月日・症例の写真など、患者の個人情報を含むファイルは絶対にアップロードしないでください。
所属施設の情報セキュリティポリシーを必ず確認してから利用してください。
注意点③:AIの判定を「最終判断」にしない
1次・2次スクリーニング、批判的吟味のいずれの場面でも、AIの判定はあくまで「下調べ」「たたき台」と位置づけてください。
最終判断はセラピスト自身が行うのが大原則です。
AIに頼り切ると、研究の質を見抜くスキルが育ちません。
「AIに任せる」ではなく「AIと共同作業する」という意識が大切です。
BRAINでの活用事例
BRAIN(株式会社BRAINが運営する脳卒中専門リハビリ施設)でも、NotebookLMをセラピスト全員で活用しています。
具体的には、以下のような使い方をしています。
- 毎週の抄読会で読む論文を、事前にNotebookLMで要約させ、論点を整理してから集まる
- リハビリ手法の文献レビューで、関連論文10本以上を一気に比較表化する
- 担当患者さんへの介入計画を立てる際、類似症例の研究データを抽出して根拠として使う
特に抄読会の準備時間は、NotebookLM導入前と比べて明らかに短くなりました。
「論文を読む時間が足りない」と悩んでいるセラピストには、まずNotebookLMから試してみることをおすすめします。
よくある質問(FAQ)
Q1:NotebookLMは完全無料で使えますか?
はい、Googleアカウントを持っていれば無料で使えます。
2026年4月時点では、無料プランで1ノートブックあたり最大50ソース、1日の利用数に制限があります。
有料プラン(NotebookLM Plus)にすると、ソース数・利用数の上限が大幅に増えます。
Q2:英語の論文を日本語で要約させることはできますか?
できます。
英語論文をアップロードしても、「日本語で要約してください」と指示すれば日本語で回答が返ってきます。
専門用語の翻訳精度も実用レベルで、英語が苦手なセラピストでも論文の内容を把握できます。
Q3:論文ファイルが50本以上ある場合はどうすればいいですか?
1ノートブックの上限は50ソースなので、テーマごとに複数のノートブックを作るのが現実的です。
例:「上肢リハビリのRCT 50本」「歩行リハビリのRCT 50本」のように、トピック別に分けて管理すると整理しやすいです。
Q4:施設のセキュリティポリシーで使えるか不安です
所属施設の情報システム部門・コンプライアンス担当に必ず事前確認してください。
原則として、論文PDFやテキストデータ(公開済みの研究情報)であれば問題ない施設が多いですが、患者の個人情報を含むファイルは絶対にアップロード禁止です。
Q5:NotebookLMの出力をそのまま信じていいですか?
原則として「下調べ」と捉え、最終判断は人間が行ってください。
NotebookLMはアップロードした文献だけを根拠に回答するので、ChatGPT等よりはハルシネーション(事実と異なる出力)が少ない設計ですが、データ抽出ミスや解釈の偏りが起こる可能性はあります。
重要な数値・結論は必ず原文で確認しましょう。
本記事のまとめ
- NotebookLMはGoogleアカウントだけで無料利用できる、文献読解に特化したAIツール
- 1次スクリーニング・2次スクリーニング・批判的吟味のすべてに活用でき、文献検索の所要時間を大幅に短縮できる
- ChatGPT・Elicitと使い分けることで、文献検索ワークフロー全体の効率が一気に上がる
- 原文確認・個人情報保護・最終判断は人間が行う、の3点は必ず守る
本記事の内容が、論文を読む時間に悩んでいるセラピストの役に立てましたら幸いです。
参考文献
Shor R, Greene EA. AI tools in academia: evaluating NotebookLM as a tool for conducting literature reviews. Psychiatry. 2025. PMID: 40875632
Hsu CH, Hsu CL, et al. Improving clinical decision-making in treating airway diseases with an expert system built upon the free AI tool Google NotebookLM. JMIR Med Inform. 2026. PMID: 41483468
Sanghera R, Thirunavukarasu AJ, et al. High-performance automated abstract screening with large language model ensembles. J Am Med Inform Assoc. 2025. PMID: 40119675
Nykvist B, Macura B, et al. Testing the utility of GPT for title and abstract screening in environmental systematic evidence synthesis. Environ Evid. 2025. PMID: 40270055
Dai ZY, Wang FQ, et al. Accuracy of large language models for literature screening in thoracic surgery: diagnostic study. J Med Internet Res. 2025. PMID: 40068152
Matsui K, Utsumi T, et al. Human-comparable sensitivity of large language models in identifying eligible studies through title and abstract screening: 3-layer strategy using GPT-3.5 and GPT-4 for systematic reviews. J Med Internet Res. 2024. PMID: 39151163
Clark J, Barton B, et al. Generative artificial intelligence use in evidence synthesis: a systematic review. Res Synth Methods. 2025. PMID: 41626912
Rashid M, Cheng SY, et al. Role of generative artificial intelligence in assisting systematic review process in health research: a systematic review. Value Health. 2025. PMID: 40848037

BRAINアカデミー
エビデンスに基づく脳卒中リハビリテーションを体系的・網羅的に学ぶ、3ヶ月間のオンライン学習プログラムです。①動画教材 ②課題 ③フィードバックを通じて、EBMを身に付けましょう!
詳細はこちら


