取り込み基準・除外基準とは｜セラピストのための論文選別の判断軸

「集めた論文、どこまで読めばいいんだろう？」

PubMedで検索すると数百件ヒットして、ここから何を採用し、何を捨てるかで詰まってしまう——そんなセラピストは多いはずです。

論文選別の決め手になるのが「取り込み基準（inclusion criteria）」と「除外基準（exclusion criteria）」です。

この2つの基準は、システマティックレビュー（系統的に文献を収集・統合する研究）だけのものではなく、臨床疑問に対して「自分の患者さんに当てはまる論文だけを残す」という日常のEBP実践でも全く同じ考え方を使います。

本記事では、取り込み基準・除外基準の定義、5つの判断軸、設定の順序、よくある失敗3パターン、PRISMAフローでの記録方法、1人検索vs2人独立検索の使い分け、明日から始める3ステップまでを、PT・OTが現場で使える形で解説します。

情報の信頼性について
・本記事はBRAIN代表／理学療法士の針谷が執筆しています（執筆者情報は記事最下部）。
・本記事はPRISMA 2020（BMJ）・Patino & Ferreira 2018（J Bras Pneumol）・Methley 2014（BMC Health Serv Res）・Waffenschmidt 2019（BMC Med Res Methodol）・Shea AMSTAR-2 2017（BMJ）・Pollock 2018（Int J Stroke）等、システマティックレビュー方法論の国際標準文献に基づいて解説しています。

本記事の結論
取り込み基準・除外基準とは｜PICOの拡張
5つの判断軸｜対象・介入・比較・アウトカム・研究デザイン
設定の順序｜広く取って絞る
よくある失敗3パターン
PRISMAフローダイアグラムでの記録方法
1人検索 vs 2人独立検索｜信頼性の確保
既存システマティックレビューの基準を参考にする
明日から始める3ステップ
本記事のまとめ
参考文献

本記事の結論

取り込み基準は「臨床疑問に答えるために必要な論文の条件」、除外基準は「除外を決定づける条件」で、両者は対義語ではなく検索精度を高めるための補完関係
判断軸はPICO（対象・介入・比較・アウトカム）に研究デザインを加えた5軸が国際標準（PICOS）
設定の順序は「広く取り込み基準を設定→絞るために除外基準を追加」が基本で、最初から狭く設定すると重要論文を取りこぼす
記録はPRISMA 2020フローダイアグラム（特定→スクリーニング→適格性評価→採用）で透明性を確保する
明日から始める3ステップは「PICOSで5軸を書き出す」「除外理由を5項目以内に絞る」「件数をPRISMAで記録する」

以下、詳しく解説していきます。

取り込み基準・除外基準とは｜PICOの拡張

取り込み基準（inclusion criteria）とは「臨床疑問に答えるために、最終的に分析へ含めるべき論文の条件」のことです。

逆に、除外基準（exclusion criteria）は「上記の条件を満たしていても、ある特定の理由から除外する条件」を指します。

2018年にJornal Brasileiro de Pneumologiaで発表されたPatinoとFerreiraの解説論文では、取り込み基準・除外基準は「研究の対象集団を明確に定義し、結果の内的妥当性と外的妥当性を担保するために不可欠な要素」と整理されています（Patino & Ferreira, 2018）。

つまり、論文の質は検索式そのものではなく「どの基準で残し、どの基準で捨てるか」で決まります。

そしてこの基準を作る際の枠組みになるのが、臨床疑問の定式化フレームPICO（Patient, Intervention, Comparison, Outcome）です。

PICOは「誰に・何を・何と比べて・どうなるか」を整理するフレームで、ここに研究デザイン（Study Design）を加えたものをPICOSと呼びます。

2020年にEmergency Medicine Journalで発表されたAmir-BehghadamiとJanatiの方法論論文では、PICOSが「システマティックレビューの取り込み・除外基準を定式化するための国際標準フレーム」として位置付けられています（Amir-Behghadami & Janati, 2020）。

※ PICOの基本的な使い方は別記事「臨床家こそ知っておくべきPICOとPECO【情報の検索速度を上げる】」で解説しています。

5つの判断軸｜対象・介入・比較・アウトカム・研究デザイン

取り込み基準・除外基準を作るときに使う5つの判断軸を、リハビリ臨床の例で具体的に見ていきます。

軸①：対象（Population）

どのような患者さんに関する論文を採用するかを決めます。

例：「成人の脳卒中片麻痺患者、発症から3か月以内、Fugl-Meyer Assessment上肢機能（FMA-UE）が10〜30点」

同時に、除外したい患者像も明確化しておきます。

例：「重度認知症（MMSE<15）」「整形外科的問題で上肢挙上不可」「失語症で指示理解困難」など。

軸②：介入（Intervention）

知りたいリハビリ手法を具体的に定義します。

例：「課題指向型訓練（task-oriented training）を週5回・40分以上・8週間以上実施」

頻度・強度・期間（FITT）まで明記すると、後で結果を比較しやすくなります。

逆に、組み合わせ介入（電気刺激＋課題指向型訓練など）は除外することで、純粋な効果を抽出できます。

軸③：比較（Comparison）

何と比較した論文を採用するかを決めます。

例：「通常リハビリ（usual care）」「無治療（no intervention）」「他の介入（CI療法など）」

比較群の設定が曖昧だと、効果量の解釈が難しくなります。

「通常リハビリ」と一括りにせず、「介入を全く行わない群」「介入頻度を半減した群」のように細かく分けるのが理想です。

軸④：アウトカム（Outcome）

結果として何を測定した論文を採用するかを決めます。

例：「主要アウトカム：FMA-UE、Action Research Arm Test（ARAT）」「副次アウトカム：Barthel Index、握力」

主要アウトカムと副次アウトカムを分けて設定するのが標準です。

独自指標や論文内でしか使われていない評価尺度のみを使った研究は除外候補になります（一般化可能性が低いため）。

軸⑤：研究デザイン（Study Design）

どの研究デザインの論文を採用するかを決めます。

例：「ランダム化比較試験（RCT）のみ」「RCT＋準ランダム化比較試験」「前向きコホート研究まで含む」

デザインを絞るほど内的妥当性は上がりますが、論文数は減ります。

2014年にBMC Health Services Researchで発表されたMethleyらの研究では、定量研究にはPICOまたはPICOS、質的研究にはSPIDERフレームを使うのが妥当と整理されています（Methley et al., 2014）。

※ PubMedで研究デザインを絞る具体的な検索操作は別記事「PubMedの使い方｜PT・OTのための完全ガイド」で解説しています。

設定の順序｜広く取って絞る

取り込み基準・除外基準は「先に絞る」のではなく、「広く取り込み基準を設定→絞るために除外基準を追加」が基本順序です。

2018年にInternational Journal of Strokeで発表されたPollockとBergeのSR方法論解説では、「初期段階は意図的に取り込み基準を広めに設定し、検索結果を見ながら除外基準を追加する反復的なプロセス」が推奨されています（Pollock & Berge, 2018）。

理由は、最初から狭く設定すると、想定していなかった重要論文を取りこぼすリスクがあるためです。

実際の手順は以下のようになります。

STEP1：PICOSで5軸を書き出す（仮設定でよい）
STEP2：PubMedで予備検索を行い、ヒット件数を確認
STEP3：ヒットが多すぎる場合（500件以上）は除外基準を追加して絞る
STEP4：ヒットが少なすぎる場合（30件未満）は取り込み基準を緩める
STEP5：100〜300件程度になるよう調整し、本検索へ進む

2019年にTropical Medicine and Healthで発表されたTawfikらのSRステップ・バイ・ステップガイドでも、「予備検索→基準調整→本検索」という反復的アプローチが標準手順として明記されています（Tawfik et al., 2019）。

よくある失敗3パターン

取り込み基準・除外基準でPT・OTがつまずきやすい失敗パターンを3つ紹介します。

失敗①：範囲が広すぎて読み切れない

「脳卒中リハビリの上肢機能改善」と漠然と検索すると、PubMedで2,000件以上ヒットしてしまいます。

解決策は、対象（軸①）と研究デザイン（軸⑤）を絞ることです。

例えば「脳卒中（成人）×発症3か月以内×RCTのみ」と絞れば、200〜400件まで減らせます。

失敗②：範囲が狭すぎて論文が見つからない

逆に「FMA-UE 10〜20点の重度麻痺×発症2週間以内×8週間介入×RCT」と絞りすぎると、5件以下になり結論が出せません。

解決策は、絞り条件のうち「介入期間」「FMA得点幅」など曖昧でも結論に影響しにくい条件を緩めることです。

例：「8週間介入」を「6〜12週間介入」、「10〜20点」を「10〜30点」に拡張する。

失敗③：基準が曖昧で再現性がない

「重度の麻痺」「慢性期」「効果的なリハビリ」のような言葉だけで基準を作ると、別の人が同じ検索をしても結果が再現できません。

解決策は、すべての基準を「数値・定義・尺度」で具体化することです。

例：「重度麻痺」→「FMA-UE 0〜30点」、「慢性期」→「発症から6か月以上経過」、「効果的」→「最小臨床的重要差（MCID）以上の改善」。

2018年のPatinoとFerreiraの解説でも、「基準は再現可能で測定可能な形に明文化することが必須」と強調されています（Patino & Ferreira, 2018）。

PRISMAフローダイアグラムでの記録方法

取り込み基準・除外基準で何件絞ったかを透明性高く記録するための国際標準が、PRISMA 2020フローダイアグラムです。

2021年にBMJで発表されたPRISMA 2020声明では、システマティックレビューにおける記録の必須項目として、4段階のフローが規定されています（Page et al., 2021）。

PRISMA 2020フローダイアグラム簡略版（特定→スクリーニング→適格性評価→採用の4段階）

段階①：Identification（特定）：データベース検索でヒットした件数、重複削除後の件数
段階②：Screening（スクリーニング）：タイトル・抄録で除外した件数と理由
段階③：Eligibility（適格性評価）：全文を読んで除外した件数と理由
段階④：Included（採用）：最終的に分析へ含めた件数

各段階で「何件除外したか」「除外理由は何か」を明記することで、第三者が同じ手順で再現できる検索になります。

除外理由は5項目以内に絞るのが推奨です（例：対象不一致、介入不一致、アウトカム不一致、デザイン不一致、言語制限）。

項目が多すぎると、後で集計・報告が煩雑になります。

※ 除外論文の中身を素早く把握する際は、AIツールを使うと効率が大幅に上がります。具体的な手順は別記事「NotebookLMで論文を効率よく読む方法【PT・OT向け】」で解説しています。

1人検索 vs 2人独立検索｜信頼性の確保

取り込み・除外の判断は、2人の評価者が独立して行い、結果を突き合わせるのが伝統的な国際標準です。

2人独立検索の理由は、1人だと判断のブレ（観察者バイアス）が混入し、論文の取りこぼしや誤採用が発生しやすいためです。

判断の一致度を測る指標として「カッパ係数（Cohen’s kappa）」が使われ、0.6以上で許容、0.8以上で高い一致度と評価されます。

一方で、2019年にBMC Medical Research Methodologyで発表されたWaffenschmidtらのメタ方法論研究では、「単一スクリーニング（1人検索）でも、テキストマイニング等のツール併用とトレーニングを組み合わせれば、ダブルスクリーニングと同等の結果を得られる可能性がある」と報告されています（Waffenschmidt et al., 2019）。

これは特に、施設内で1人で検索を行うPT・OTにとって重要なエビデンスです。

具体的な使い分けは以下の通りです。

正式なシステマティックレビュー（学会発表・論文化目的）：2人独立検索が原則。第三者による調停も用意
日常臨床のEBP実践（自分の患者さんへの臨床判断）：1人検索でOK。AIツール（NotebookLM、Elicit、Consensus等）併用で精度を補う
院内勉強会・抄読会：2〜3人で分担し、判断が分かれたものだけ全員で議論

1人検索の精度を上げる具体的な方法は、別記事「Elicitの使い方｜AI論文検索でPT・OTの文献選別を効率化する」「Consensusの使い方｜エビデンス強度を可視化するAI論文検索」で解説しています。

既存システマティックレビューの基準を参考にする

ゼロから取り込み基準・除外基準を作るのが難しい場合は、同じ領域の既存システマティックレビューの基準を参考にするのが近道です。

例えば、2014年にCochrane Database of Systematic Reviewsで発表されたPollockらの脳卒中後上肢機能改善のCochraneレビューでは、対象・介入・比較・アウトカム・研究デザインの5軸ごとに具体的な基準が明文化されています（Pollock et al., 2014）。

このような既存SRの「Methods」セクションを読むと、以下のような実例が確認できます。

対象の年齢制限・診断基準・発症からの時期
介入の頻度・強度・期間（FITT）の最低条件
比較群として認める治療内容
採用するアウトカム指標（主要・副次）
許可する研究デザインと言語

システマティックレビュー自体の質を見極める際は、AMSTAR-2（A MeaSurement Tool to Assess systematic Reviews）が国際標準の評価ツールとして使われます（Shea et al., 2017）。

AMSTAR-2は16項目のチェックリストで、その中に「取り込み・除外基準が事前に明確化されていたか」「2人独立検索が行われたか」が含まれています。

明日から始める3ステップ

「取り込み基準・除外基準を、明日から実際に使い始めたい」というセラピストに向けて、3つのステップを提案します。

ステップ①：PICOSで5軸を書き出す

担当患者さんの臨床疑問を、PICOS（5軸）で具体化します。

例：「FMA-UE 18点の脳卒中片麻痺患者（P）に課題指向型訓練（I）を、通常リハビリ（C）と比較し、上肢機能（O）はどう変化するか、RCT（S）で確認する」。

5軸ごとに数値・定義・尺度まで具体化すれば、それがそのまま取り込み基準になります。

ステップ②：除外理由を5項目以内に絞る

除外基準は、PRISMAフローでの記録を意識して、5項目以内に絞り込むのが理想です。

標準的な5項目は以下の通りです。

① 対象不一致（年齢・診断・重症度が範囲外）
② 介入不一致（手法・頻度・強度・期間が範囲外）
③ アウトカム不一致（主要アウトカム未測定）
④ 研究デザイン不一致（観察研究のみ・症例報告等）
⑤ 言語制限（英語・日本語以外）

ステップ③：件数をPRISMAフローで記録する

検索結果から最終採用までの件数を、PRISMAフローダイアグラムの4段階で記録します。

例：「特定 n=300」→「重複削除後 n=280」→「タイトル・抄録除外 n=220 → 残り60件」→「全文除外 n=45 → 採用15件」

除外理由ごとの件数も記録すれば、後で振り返りや報告に使えます。

※ PubMedで効率的に件数管理する具体的な操作は別記事「PubMedの使い方｜PT・OTのための完全ガイド」で解説しています。EBPの全体像は「EBP/EBMとは｜リハビリ臨床への活かし方｜PT・OTのための実践ガイド」を参照してください。

本記事のまとめ

取り込み基準・除外基準は「論文選別の判断軸」で、検索式そのものよりも論文の質を決定づける（Patino & Ferreira, 2018）
判断軸は対象・介入・比較・アウトカム・研究デザインの5軸（PICOS）（Amir-Behghadami & Janati, 2020）
設定の順序は「広く取って絞る」が基本で、予備検索→基準調整→本検索の反復が国際標準（Pollock & Berge, 2018）
件数と除外理由はPRISMA 2020フローダイアグラムで記録し、再現性と透明性を担保する（Page et al., 2021）
1人検索でもAIツール併用なら一定の精度を確保できるが、正式SRは2人独立検索が原則（Waffenschmidt et al., 2019）

本記事の内容が、論文選別で迷うPT・OTの役に立てましたら幸いです。

参考文献

Page MJ, McKenzie JE, Bossuyt PM, et al. The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ. 2021. PMID: 33782057

Patino CM, Ferreira JC. Inclusion and exclusion criteria in research studies: definitions and why they matter. J Bras Pneumol. 2018. PMID: 29791550

Amir-Behghadami M, Janati A. Population, Intervention, Comparison, Outcomes and Study (PICOS) design as a framework to formulate eligibility criteria in systematic reviews. Emerg Med J. 2020. PMID: 32253195

Methley AM, Campbell S, Chew-Graham C, et al. PICO, PICOS and SPIDER: a comparison study of specificity and sensitivity in three search tools for qualitative systematic reviews. BMC Health Serv Res. 2014. PMID: 25413154

Waffenschmidt S, Knelangen M, Sieben W, et al. Single screening versus conventional double screening for study selection in systematic reviews: a methodological systematic review. BMC Med Res Methodol. 2019. PMID: 31253092

Shea BJ, Reeves BC, Wells G, et al. AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both. BMJ. 2017. PMID: 28935701

Pollock A, Berge E. How to do a systematic review. Int J Stroke. 2018. PMID: 29148960

Tawfik GM, Dila KAS, Mohamed MYF, et al. A step by step guide for conducting a systematic review and meta-analysis with simulation data. Trop Med Health. 2019. PMID: 31388330

Pollock A, Farmer SE, Brady MC, et al. Interventions for improving upper limb function after stroke. Cochrane Database Syst Rev. 2014. PMID: 25387001

BRAINアカデミー

エビデンスに基づく脳卒中リハビリテーションを体系的・網羅的に学ぶ、3ヶ月間のオンライン学習プログラムです。①動画教材 ②課題 ③フィードバックを通じて、EBMを身に付けましょう！
詳細はこちら

書籍｜文献検索の超基本

「先輩に聞けばいい」から卒業しませんか？

本書は、PT・OT・STが最短で文献検索を身につけるための一冊です。172ページ＋40本の動画で、PubMed検索からAI活用まで実践的に学べます。ChatGPT、Elicit、Semantic ScholarなどのAIツールを”なんとなく使う”のではなく、正しく臨床に活かす方法を体系的に解説。文献検索は、早く身につけた人が圧倒的に伸びます。エビデンスを自分で調べられるセラピストになりませんか？

詳細はこちら