内的妥当性と外的妥当性｜PT・OTが論文の質を見抜く2つの視点

「この論文の結果、臨床に当てはめていいのかな…」

RCTやメタアナリシスを読んでも、「効果あり」の結論だけ見て安心していませんか。

論文の質を見抜くうえで、PT・OT・STが必ず押さえるべき2つの視点があります。それが内的妥当性（internal validity）と外的妥当性（external validity）です。

内的妥当性は「研究内部での因果関係の確からしさ」、外的妥当性は「結果を目の前の患者に適用できるか」を表します。

今回は、内的妥当性・外的妥当性の定義、それぞれを脅かす主な要因、リハビリRCTでの実例、BRAINでの臨床判断への活かし方まで、PT・OTが今日から論文を読むときに使える形で解説します。

情報の信頼性について
・本記事はBRAIN代表／理学療法士の針谷が執筆しています（執筆者情報は記事最下部）。
・本記事はCochrane RoB 2.0／ROBINS-I／CONSORT 2010／PRECIS-2の公式ガイドラインおよび、リハビリRCT・メタアナリシスでの妥当性議論を扱った査読論文を中心に引用しています。

BASIC COURSE ｜ EBP・文献検索

エビデンスを、
自分で調べられるセラピストへ。

英語論文の読み方、PubMedを使った文献検索、批判的吟味を体系的に。ElicitなどのAI活用も含め、「なんとなく」ではなく臨床に活かす文献検索が身につきます。

英語論文の読み方　／　PubMed検索　／　批判的吟味

ベーシックコースを見る →

毎月1日開講・いつでもエントリー可能
オンライン／PT・OT向け／BRAINアカデミー

本記事の結論
内的妥当性とは｜研究内部での因果関係の確からしさ
外的妥当性とは｜結果の一般化可能性
内的妥当性を脅かす4つの主要バイアス
外的妥当性を脅かす4つの主要要因
リハビリRCTで実際にどう判断するか｜3つの実例
BRAINの臨床判断｜妥当性をSDMにどう活かすか
妥当性と信頼性の違い｜よくある混同を整理
よくある質問（FAQ）
本記事のまとめ
参考文献

本記事の結論

内的妥当性は「研究内部で原因と結果の関係がどれだけ確かか」、外的妥当性は「結果を別の患者・別の施設に一般化できるか」を指す
内的妥当性はRoB 2.0／ROBINS-Iで5領域から評価、外的妥当性はPRECIS-2で9領域から評価する枠組みが確立している
PT・OTは論文を読むとき「効果あり／なし」だけでなく、内的妥当性（信頼できる結果か）と外的妥当性（自分の患者に当てはまるか）の両方を確認する必要がある

以下、詳しく解説していきます。

内的妥当性と外的妥当性の比較マトリクス｜内的妥当性は因果関係の確からしさ、外的妥当性は結果の一般化可能性 — 内的妥当性と外的妥当性の2軸マトリクス（BRAIN作成）

内的妥当性とは｜研究内部での因果関係の確からしさ

内的妥当性（internal validity）とは、「研究で観察された介入と結果の関係が、本当に因果関係と言えるか」を表す指標です。

言い換えると、「介入A群でアウトカムが改善した」という結果が、本当に介入Aのおかげなのか、それとも他の要因（偶然・偏り・交絡）が混じっているのかを吟味する視点です。

Cochraneが2019年に発表したRCT用バイアス評価ツール「RoB 2.0（Risk of Bias 2）」では、内的妥当性を以下の5領域で評価します（Sterne et al, 2019）（Sterne et al, 2019）。

1. ランダム化過程のバイアス：割り付け方法が適切か、隠蔽化されているか
2. 意図された介入からの逸脱バイアス：参加者・治療者・評価者の盲検化、プロトコル遵守
3. アウトカムデータの欠損バイアス：脱落者・データ欠損の扱い
4. アウトカム測定のバイアス：評価方法の妥当性、評価者の盲検化
5. 報告された結果の選択的選択バイアス：事前登録プロトコルとの整合性

これら5領域それぞれを「Low risk（低リスク）」「Some concerns（懸念あり）」「High risk（高リスク）」の3段階で判定し、論文全体のバイアスリスクを総合評価します。

非ランダム化研究（観察研究・準実験的研究等）に対しては、同じCochraneチームが開発したROBINS-I（Risk Of Bias In Non-randomised Studies of Interventions）を使います（Sterne et al, 2016）。

ROBINS-Iは7領域（交絡・参加者選択・介入分類・介入逸脱・データ欠損・アウトカム測定・選択的報告）で評価し、観察研究特有の「交絡因子」の扱いを重点的に検討する点が特徴です。

つまり、内的妥当性が高い論文とは、「報告された効果が、偶然や偏りではなく介入そのものに起因していると強く言える論文」を指します。

外的妥当性とは｜結果の一般化可能性

外的妥当性（external validity）とは、「研究で得られた結果を、研究参加者以外の集団・施設・状況に当てはめられるか」を表す指標です。

generalizability（一般化可能性）やapplicability（適用可能性）と呼ばれることもあります。

例えば、「発症1ヶ月以内の急性期脳卒中患者にFMA-UE 30点以上」を対象にしたRCTの結果は、発症半年以上経過した慢性期かつFMA-UE 15点以下の重度患者にそのまま当てはめられるとは限りません。

外的妥当性を体系的に評価するツールとして、Loudonらが開発したPRECIS-2（Pragmatic Explanatory Continuum Indicator Summary 2）があります（Zwarenstein et al, 2020）。

PRECIS-2は、トライアルが「説明的（explanatory：理想条件下での効力検証）」か「実用的（pragmatic：実臨床条件下での有効性検証）」かを9領域で評価します。

1. 適格基準：実臨床の患者特性をどれだけ反映しているか
2. リクルート：通常診療と同様の経路で参加者を集めているか
3. 場所：研究実施施設が日常的な医療現場に近いか
4. 組織：介入実施に特別なリソースが必要か
5. 介入の柔軟性（実施側）：治療者がプロトコルから逸脱できる余地があるか
6. 介入の柔軟性（参加者側）：参加者の遵守度をどこまで求めるか
7. フォローアップ：通常診療と異なる頻度・密度のフォローを行っていないか
8. 主要アウトカム：患者や臨床家にとって意味のあるアウトカムか
9. 主要解析：ITT解析など実臨床に近い分析か

各領域を1〜5点で評価し、スコアが高いほどpragmatic（実臨床に近い）、低いほどexplanatory（理想条件下）と判定します。

つまり、外的妥当性が高い論文とは、「目の前の患者に対しても、同じような効果が期待できると言いやすい論文」を指します。

内的妥当性を脅かす4つの主要バイアス

内的妥当性を低下させる代表的なバイアスは、以下の4種類です。

妥当性を脅かす8つの要因｜内的妥当性4要因と外的妥当性4要因の一覧 — 妥当性を脅かす主な要因（BRAIN作成）

①選択バイアス（Selection bias）

ランダム割り付けが不適切に行われた結果、介入群と対照群のベースライン特性に偏りが生じるバイアスです。

例えば、コインを振る人が結果を予測できる状況（割り付けの隠蔽化不備）では、研究者が「重症な患者は介入群に入れたくない」と無意識に判断し、群間で重症度が偏る可能性があります。

RoB 2.0では、「割り付け順序の隠蔽化（allocation concealment）」と「ベースラインの群間差」を重点的にチェックします。

②盲検化の不備（Performance / Detection bias）

参加者・治療者・評価者が「誰がどの群か」を知っている場合、介入の実施や評価が無意識に歪むバイアスです。

リハビリRCTでは、治療者と参加者の盲検化は実質的に不可能なことが多いです（運動療法と座位安静を見分けられないようにするのは難しい）。

そのため、少なくとも「評価者の盲検化（assessor blinding）」が確保されているかが、リハビリ研究の質を見る大きなポイントになります。

③脱落バイアス（Attrition bias）

研究途中で参加者が脱落し、その結果が解析から除外されることで生じるバイアスです。

例えば、効果が出ない参加者だけが介入群から離脱した場合、残った参加者のデータだけで「介入は有効」と結論づけると、実態を反映しない結果になります。

対策として「ITT解析（Intention-To-Treat analysis：脱落者も含めた当初割り付け群で解析）」が推奨されます。

④報告バイアス（Reporting bias）

事前登録したアウトカムのうち、「都合の良い結果が出たもの」だけを論文で報告するバイアスです。

RoB 2.0では、事前登録プロトコル（ClinicalTrials.gov等）と論文に書かれたアウトカムの一致を確認することで判定します。

CONSORT 2010ステートメント（RCTの報告ガイドライン）では、研究計画段階で主要アウトカムを明示的に決め、変更があれば論文中で説明することを求めています（Schulz et al, 2010）。

BRAINの判断！
BRAINでは、リハビリRCTの論文を抄読会で読むとき、最低でも「①ランダム化の方法」「②評価者の盲検化」「③脱落者の扱い（ITT解析か）」の3点をチェックしてから結論を信用するようにしています。これだけでも、結果を鵜呑みにするリスクをかなり減らせます。

外的妥当性を脅かす4つの主要要因

外的妥当性を低下させる代表的な要因は、以下の4種類です。

①参加者特性の偏り

研究の適格基準が厳しすぎて、実臨床の患者と大きく異なる場合、結果を一般化しにくくなります。

例えば、「年齢40〜65歳、認知機能MMSE 25点以上、FMA-UE 30〜50点、合併症なし」のような限定的な条件で集めた患者の結果は、実臨床で多い「高齢・軽度認知機能低下・複数合併症あり」の患者にそのまま当てはまらないかもしれません。

②施設特性の偏り

大学病院や専門リハビリセンターでのRCT結果は、地域のクリニックや回復期病棟にそのまま当てはまらない可能性があります。

2026年にJournal of Medical Systemsで発表されたAIリハビリの系統的レビュー（30研究）でも、「AI使用群は客観的なテレメトリで遵守度を測定する一方、対照群は自己報告ベースで非対称的な遵守測定だった」ことが内的妥当性を制約し、長期フォロー効果が乏しい原因の一つとして指摘されています（El Arab et al, 2026）。

③介入の標準化不足／施設依存性

論文に書かれた介入を、別の施設・別の治療者がそのまま再現できるかは、外的妥当性の重要な論点です。

2026年にTechnology and Health Careで発表されたHAL（Hybrid Assistive Limb）の脳卒中リハナラティブレビューでも、「高コスト・限られた施設配置・研究間の方法論的バリエーションがHAL研究のgeneralizabilityを制約している」と報告されています（Yuzhu & Krishnaswamy, 2026）。

つまり、機器ありきの介入は、設備のない施設では再現できないため、外的妥当性が下がる傾向があります。

④アウトカム時点・フォロー期間

短期フォロー（4〜8週間）の効果が、長期（6ヶ月以上）でも維持されるとは限りません。

PT・OTの臨床現場では「効果が続くかどうか」が重要なので、アウトカム評価の時点が短すぎる研究は、長期効果に関する外的妥当性が低いと判断する必要があります。

リハビリRCTで実際にどう判断するか｜3つの実例

ここからは、近年のリハビリRCT・SR論文を例に、内的妥当性と外的妥当性をどう読み解くかを見ていきます。

実例①：脳卒中ロボット歩行訓練のメタアナリシス

2020年にAnnals of Physical and Rehabilitation Medicineで発表されたロボット歩行訓練のメタアナリシスでは、「歩行速度・歩行自立度の改善は示されたものの、研究間の異質性が大きく、サブグループ解析でロボットの種類による効果差が確認された」と報告されています（Moucheboeuf et al, 2020）。

つまり、「ロボット歩行訓練は効く」という結論は内的妥当性として一定の根拠がありますが、「どのロボットでも同じ効果が出るとは限らない」点で外的妥当性は限定的です。

実例②：脳卒中後音楽介入の歩行改善メタアナリシス

2026年にTopics in Stroke Rehabilitationで発表された音楽介入のメタアナリシス（12研究・388名）では、歩行速度（SMD=0.81, 95%CI: 0.36-1.26）・歩幅（SMD=0.80, 95%CI: 0.33-1.28）の改善が示されました（Li et al, 2026）。

ただし著者自身が「研究間の異質性が大きく、累積サンプルサイズもまだ小さいため、comparabilityとgeneralizabilityは限定的」と明記しており、現時点では「適用範囲を限定して使う」段階のエビデンスと読むのが妥当です。

文献検索・批判的吟味を体系的に身につけたい方へ。

ベーシックコースの詳細を見る →

実例③：認知リハビリRCTの質的調査

2025年にArchives of Clinical Neuropsychologyで発表されたワーキングメモリ介入RCT 30件の質評価では、CONSORTの45項目のうち平均11.9項目しか完全報告されておらず、RoB 2.0で36件が「高リスク」、10件が「懸念あり」、低リスクは1件のみと報告されています（Blause et al, 2025）。

つまり、認知リハ領域では内的妥当性の高いRCTが極めて少ないため、「メタアナリシスで効果あり」の結論があっても、個別研究の質を確認する必要があります。

BRAINの判断！
BRAINでは、新しい介入手法（BMI・TMS・TOT-S等）を導入する際、対象論文を1本だけでなく必ず複数本読み、「内的妥当性が低くないか（RoB 2.0で低リスク〜懸念ありが多いか）」「外的妥当性が成立しているか（自施設の患者特性・設備で再現可能か）」の両方を確認してから採用判断しています。

BRAINの臨床判断｜妥当性をSDMにどう活かすか

論文の妥当性を見抜く力は、Shared Decision Making（SDM：共同意思決定）にも直結します。BRAINでの活用例を3つ紹介します。

活用①：選択肢提示の根拠を吟味する

患者さんに介入の選択肢を提示するとき、根拠となる論文の内的妥当性が低ければ「効果あり」と断言できません。

例えば、Cochraneレビュー（Gibson et al, 2022）は脳卒中後の認知障害に対する作業療法について「効果に関するエビデンスは依然として限定的」と結論づけています（Gibson et al, 2022）。

BRAINでは、こうしたエビデンスの限界を患者さんに正直に伝えた上で、選択肢を提示するようにしています。

活用②：自施設で再現可能か確認する

外的妥当性の観点では、「論文の介入が自施設・自分の手で再現できるか」が大きなチェックポイントです。

例えば、HAL等の高額機器を使ったRCTの結果は、機器を持たない施設では「同じ条件では」再現できません。

BRAINではBMIとTMSを導入していますが、これらを使う際にも「論文の患者特性が自施設と近いか、頻度・期間・刺激パラメータを再現できるか」を毎回確認しています。

活用③：効果予測の幅を患者さんに正直に伝える

内的妥当性が高くても外的妥当性が低い場合、「研究では効いたが、あなたの場合は効くか分からない」状況になります。

BRAINでは、患者さんとのSDM面談で「研究ではこういう患者さんで効果が出ています。あなたの場合は◯◯の点で違うので、効果の幅はもう少し狭く見ておきましょう」と、外的妥当性の限界を踏まえて伝えています。

2026年にDisability and Rehabilitationで発表された脳卒中後の身体活動行動変容介入の実装研究でも、「実臨床に介入を移植するときは、現場の文脈（barriers and facilitators）を踏まえた調整が必須」と報告されています（Moore et al, 2026）。

つまり、外的妥当性の議論は「論文を読む側」だけでなく「臨床に応用する側」の積極的な作業が必要になります。

妥当性と信頼性の違い｜よくある混同を整理

「妥当性（validity）」と「信頼性（reliability）」は混同されがちですが、別の概念です。

妥当性（validity）：測定したいものを正しく測れているか（的を射ているか）
信頼性（reliability）：同じものを繰り返し測ったとき、結果が安定しているか（同じ的に当たり続けるか）

評価指標（FMA・BBS・10m歩行試験等）の文脈で「妥当性・信頼性」と言うときは、「その指標が測定したい機能を正しく反映しているか（妥当性）」と「測定誤差がどれだけ小さいか（信頼性）」を指します。

一方、本記事で扱っている「内的妥当性・外的妥当性」は研究全体の質を評価する概念で、評価指標の妥当性とは別の階層です。

※ 評価指標個別の妥当性・信頼性については、FMA（Fugl-Meyer Assessment）の解説記事やBBS（Berg Balance Scale）の解説記事で詳しく扱っています。

よくある質問（FAQ）

Q1：内的妥当性と外的妥当性、どちらを優先すべきですか？

どちらか1つを優先するのではなく、両方を確認する必要があります。

内的妥当性が低い研究は「結果が信用できない」ため、議論の土台になりません。一方、内的妥当性が高くても外的妥当性が低い研究は「結果は信用できるが、自分の患者に当てはまるかは別問題」となります。

順序としては、まず内的妥当性を確認し、その上で外的妥当性を吟味するのが標準です。

Q2：RCTは外的妥当性が低いと聞きました。本当ですか？

傾向として正しいです。

多くのRCTは「効力（efficacy）検証のための説明的トライアル（explanatory trial）」で、適格基準が厳しく実臨床と乖離しがちです。これに対して「実臨床条件下での有効性（effectiveness）」を検証する「実用的トライアル（pragmatic trial）」もあり、PRECIS-2でその位置づけを評価できます（Zwarenstein et al, 2020）。

Q3：RoB 2.0で「高リスク」と判定された論文は読まなくていいですか？

そうとは限りません。

RoB 2.0は「あくまでバイアスリスクの可能性」を評価するもので、結果が無効と決まったわけではありません。複数の高リスク研究で結果が一致していれば、ある程度の確からしさはあります。

ただし、結論を引用する際は「この研究はRoB 2.0で高リスクと判定されている」ことを明記し、臨床判断には他の研究と合わせて慎重に扱う必要があります。

Q4：観察研究の妥当性はどう評価しますか？

ROBINS-Iを使います（Sterne et al, 2016）。

観察研究はランダム化されていないため、特に「交絡因子」の扱いが重要になります。ROBINS-Iは交絡を含む7領域で評価し、観察研究のバイアスリスクを体系的に判定できます。

本記事のまとめ

内的妥当性は「研究内部での因果関係の確からしさ」、外的妥当性は「結果の一般化可能性」
内的妥当性はRoB 2.0／ROBINS-Iの5〜7領域、外的妥当性はPRECIS-2の9領域で体系的に評価できる
内的妥当性を脅かす主な要因は選択バイアス・盲検化の不備・脱落バイアス・報告バイアス
外的妥当性を脅かす主な要因は参加者特性の偏り・施設特性・介入の標準化不足・アウトカム時点
論文を読むときは「効果あり／なし」だけでなく、内的妥当性と外的妥当性の両方を確認してから臨床判断する

なお、内的妥当性・外的妥当性の議論は、書籍『文献検索の超基本』第8章「論文の限界を見抜く」でさらに詳しく扱っています。記事内では紹介しきれなかった「効果量と臨床的意義（MCID）」「メタアナリシスの異質性」「サブグループ解析の落とし穴」などの実践テクニックを、PT・OT・ST向けに体系的にまとめています。

本記事の内容が、論文の質を見抜く力を身につけたいセラピストの役に立てましたら幸いです。

参考文献

Sterne JAC, Savović J, Page MJ, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ. 2019;366:l4898. PMID: 31462531

Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ. 2016;355:i4919. PMID: 27733354

Schulz KF, Altman DG, Moher D. CONSORT 2010 Statement: Updated guidelines for reporting parallel group randomised trials. J Clin Epidemiol. 2010;63(8):834-840. PMID: 20346629

Zwarenstein M, Thorpe K, Treweek S, Loudon K. PRECIS-2 for retrospective assessment of RCTs in systematic reviews. J Clin Epidemiol. 2020;126:202-206. PMID: 32565215

Blause SD, Léonard F, Willems S, Tirelli E. Can Research Findings be Used in Clinical Neuropsychology? Analysis of Randomized Controlled Trials of Working Memory Intervention for Children. Arch Clin Neuropsychol. 2025. PMID: 40485054

El Arab RA, Al Moosa OA, Almagharbeh WT, et al. Artificial Intelligence in Physical, Occupational and Neuro-Rehabilitation: Clinical Effectiveness, Prognostic Performance, and Pre-Implementation Feasibility – A Systematic Review. J Med Syst. 2026. PMID: 42118349

Yuzhu L, Krishnaswamy G. Robotic-Assisted rehabilitation in stroke patients using the hybrid assistive limb (HAL): A narrative review. Technol Health Care. 2026. PMID: 41989350

Li M, Zhang M, Ding Y, et al. Music-based interventions improve gait function in stroke survivors: a systematic review and meta-analysis. Top Stroke Rehabil. 2026. PMID: 42033039

Moucheboeuf G, Griffier R, Gasq D, et al. Effects of robotic gait training after stroke: A meta-analysis. Ann Phys Rehabil Med. 2020;63(6):518-534. PMID: 32229177

Gibson E, Koh CL, Eames S, et al. Occupational therapy for cognitive impairment in stroke patients. Cochrane Database Syst Rev. 2022;3(3):CD006430. PMID: 35349186

Moore SA, Calder J, Folorunsho J, Potthoff S. Exploring barriers and facilitators to healthcare professional implementation of a stroke physical activity behaviour change intervention. Disabil Rehabil. 2026. PMID: 41879342

Canto DF, Costa FM, Girardi Paskulin LM, Lucena AF. Effectiveness of Educational Intervention for Caregivers of Older Adults who have Suffered a Stroke Evaluated by Nursing Outcomes Classification. Int J Nurs Knowl. 2026. PMID: 42126820

BASIC COURSE ｜ EBP・文献検索

エビデンスを、
自分で調べられるセラピストへ。

英語論文の読み方　／　PubMed検索　／　批判的吟味

ベーシックコースを見る →

毎月1日開講・いつでもエントリー可能
オンライン／PT・OT向け／BRAINアカデミー

書籍｜文献検索の超基本

「先輩に聞けばいい」から卒業しませんか？

本書は、PT・OT・STが最短で文献検索を身につけるための一冊です。172ページ＋40本の動画で、PubMed検索からAI活用まで実践的に学べます。ChatGPT、Elicit、Semantic ScholarなどのAIツールを”なんとなく使う”のではなく、正しく臨床に活かす方法を体系的に解説。文献検索は、早く身につけた人が圧倒的に伸びます。エビデンスを自分で調べられるセラピストになりませんか？

詳細はこちら