「このリハビリ介入のエビデンスレベルって、結局どれくらい高いの?」

論文を読んでいて、研究デザインの違いと「エビデンスレベル」の関係が曖昧なまま、なんとなく臨床判断していないでしょうか。

メタアナリシスとRCTとコホート研究、どれが上でどれが下なのか。なぜランダム化が「より高いエビデンス」とされるのか。最近の論文で「GRADE」「6S」といった新しい言葉を見かけるけれど、従来のピラミッドとは何が違うのか。

本記事では、エビデンスピラミッドの基本構造から、CEBM・GRADE・Mindsといった主要な評価枠組み、そしてリハビリ臨床でピラミッドをどう使えばよいのかまでを、PT・OT・STが現場で迷わない形で解説します。

「エビデンスレベルが高い研究=そのまま臨床応用できる研究」ではないという、最近のエビデンスピラミッド批判の議論まで踏み込んで紹介します。

情報の信頼性について
・本記事はBRAIN代表/理学療法士の針谷が執筆しています(執筆者情報は記事最下部)。
・本記事の情報は、GRADE Working Groupの原著論文、Oxford CEBMの公式文書、リハビリ・神経領域のメタリサーチ研究のデータを中心に引用しています。

本記事の結論

  • エビデンスピラミッドは「研究デザインの内的妥当性の高さ」を縦軸で整理した階層モデル。最上位はメタアナリシス/システマティックレビュー、最下位は専門家意見
  • 現代のガイドラインはピラミッドだけでなくGRADEシステムを併用し、「研究デザイン×バイアス・一貫性・精度・出版バイアス」の総合評価でエビデンスの確実性を判定する
  • リハビリ臨床ではピラミッドを「介入選択の優先順位づけ」に使い、SDM(共有意思決定)と組み合わせることで、患者個別の文脈に翻訳して使う

以下、詳しく解説していきます。

エビデンスピラミッドとは|エビデンスレベルを階層で表す枠組み

エビデンスピラミッド(evidence pyramid)とは、医療研究のエビデンスレベル(=研究結果がどれくらい信頼できるか)を、研究デザインの種類によって階層化して図示した枠組みです。

1990年代以降のEBM(evidence-based medicine)の発展とともに普及し、PT・OT・STの教科書にも頻繁に登場する古典的なモデルです。

古典的なエビデンスピラミッドは、上から下へ次のように並びます。

  1. メタアナリシス/システマティックレビュー:複数のRCTを統合して結論を出す研究
  2. ランダム化比較試験(RCT):介入群と対照群を無作為に割り付ける研究
  3. コホート研究:暴露群と非暴露群を時間軸で追跡する観察研究
  4. 症例対照研究:結果が出ている群と出ていない群を比較する観察研究
  5. 症例集積/症例報告:少数例の臨床経過をまとめた研究
  6. 専門家意見(expert opinion):研究データのない、経験ベースの見解

縦軸は「内的妥当性(その研究の結果がどれくらいバイアスを排除できているか)」を表しています。

上位の研究デザインほどバイアスが入りにくい設計になっており、結果の信頼性が高いとされます。

このピラミッドモデルを最初に体系化した一人がDavid Sackettで、1990年代の「Evidence based medicine: what it is and what it isn’t」(Sackett et al, 1996)でEBMの基本原則と研究エビデンスの位置づけを提示しました。

※ EBMの基本概念は別記事「EBP/EBMとは|リハビリ臨床への活かし方|PT・OTのための実践ガイド」で詳しく解説しています。

エビデンスピラミッドの古典的な階層構造を示すインフォグラフィック。上からメタアナリシス、RCT、コホート研究、症例対照研究、症例報告、専門家意見の順に並ぶ
エビデンスピラミッドの古典的な階層構造

各レベルの研究デザインを1つずつ理解する

ピラミッドの各層がどんな研究デザインを指すのか、リハビリ臨床に近い例を挟みながら整理します。

メタアナリシス/システマティックレビュー(最上位)

システマティックレビュー(SR)は、特定の臨床疑問について、あらかじめ決められた手順で世界中の関連研究を網羅的に収集・批判的吟味し、結果を統合する研究です。

メタアナリシス(MA)は、SRの中で複数のRCTの結果を数値的に統合し、効果量(effect size)をプール推定する解析手法を指します。

SR/MAは、単一のRCTで起こりうる偶然のばらつきや特定集団への偏りを、複数研究の統合で平均化できるのが強みです。

※ SRとMAの違いと使い分けは、別記事「システマティックレビューとメタアナリシスの違い|PT・OT実践ガイド」で詳しく解説しています。

ランダム化比較試験(RCT)

RCT(randomized controlled trial)は、対象者を介入群と対照群に無作為に割り付け、両群の結果を比較する研究デザインです。

ランダム化により、年齢・重症度・併存疾患などの患者背景が両群でほぼ等しくなるため、「介入そのものの効果」を抽出しやすくなります。

「因果関係を推定するためのゴールドスタンダード」とされる研究デザインです。

コホート研究

コホート研究は、ある暴露・要因を持つ群と持たない群を、時間軸で前向き(または後ろ向き)に追跡し、結果の発生率を比較する観察研究です。

例:脳卒中発症3ヶ月時点のFMA-UE得点と、1年後の上肢ADL自立度の関連を追跡する研究。

RCTのようにランダム化できないため、群間の背景差(交絡因子)が結果に影響するリスクがあります。

症例対照研究

症例対照研究は、結果(疾患・転帰)が出ている群(症例群)と出ていない群(対照群)を後ろ向きに比較し、過去の暴露要因を調べる研究です。

稀な疾患・転帰の研究に適しますが、思い出しバイアスや選択バイアスが入りやすいです。

症例集積/症例報告

症例集積(case series)は、同じ介入を受けた複数患者の経過をまとめた研究、症例報告(case report)は1〜数例の詳細な臨床経過をまとめた研究です。

対照群がないため、結果が介入によるものか自然回復によるものかを区別できません。

新規介入の初期報告や、稀な臨床現象の記録という別の役割を持ちます。

専門家意見(最下位)

専門家意見(expert opinion)は、研究データに基づかない、特定の臨床家・研究者の経験ベースの見解です。

ピラミッドの最下位に位置づけられますが、研究エビデンスがまだ存在しない領域では、しばしば現場の判断材料になります。

古典ピラミッドと現代型(GRADE)の違い

「エビデンスレベル=研究デザインのランクで決まる」という古典ピラミッドの考え方には、2000年代以降いくつかの本質的な問題が指摘されてきました。

たとえば「方法論的に質の低いRCT」と「方法論的に質の高い大規模コホート研究」を、どちらが優れたエビデンスと判断するか。古典ピラミッドの分類だけでは、この区別がつきません。

この問題に対する解決策として登場したのがGRADE(Grading of Recommendations Assessment, Development and Evaluation)システムです。

2004年にAtkinsらがBMJで発表した原著では、6つの既存評価システムを比較したうえで、「研究デザインだけで決めるのではなく、複数の要因で総合的に評価すべき」という共通原則を提示しました(Atkins et al, 2004)

GRADEでは、エビデンスの確実性(certainty of evidence)を以下の4段階で評価します。

  • High(高):真の効果が推定値に近い、と高い確信を持てる
  • Moderate(中):真の効果が推定値に近い可能性が高いが、変わる可能性もある
  • Low(低):真の効果は推定値と大きく異なる可能性がある
  • Very low(非常に低い):真の効果の推定値はほとんど不明

GRADEの大きな特徴は、研究デザイン(RCT/観察研究)を出発点としつつ、以下の5要素で「ダウングレード」または「アップグレード」する点です。

  1. Risk of bias(バイアスリスク):個別研究の方法論的な質
  2. Inconsistency(一貫性のなさ):研究間の結果のばらつき
  3. Indirectness(間接性):PICOとのズレ(対象・介入・比較・アウトカム)
  4. Imprecision(不精確):信頼区間の幅・サンプルサイズ
  5. Publication bias(出版バイアス):有意な結果のみが報告されている可能性

つまりGRADEでは「RCTのメタアナリシスでも、バイアスリスクが高く・結果がばらつき・サンプルが小さければ、エビデンスの確実性はLowまで下がる」のです。

逆に、観察研究でも効果量が極めて大きく・用量反応関係が明確であれば、エビデンスの確実性をアップグレードできます。

GRADEの考え方の根本は、「ピラミッドの位置取り」よりも「個別研究と研究群の質を多面的に見る」という点にあります(Atkins et al, 2004, BMC Health Serv Res

※ 効果量や信頼区間といったGRADEのキー指標は、別記事「効果量とは|PT・OTのための効果量の読み方・使い方ガイド」「信頼区間の解釈|PT・OT実践ガイド」で詳しく解説しています。

古典的エビデンスピラミッドと現代型GRADEシステムの比較。古典型は研究デザインだけで階層化、GRADEは研究デザイン×5要素(バイアス・一貫性・間接性・精度・出版バイアス)で評価
古典ピラミッドと現代型GRADEシステムの比較

エビデンスピラミッドの限界と最近の議論

古典ピラミッドへの批判は、GRADEだけにとどまりません。

2016年にMurad MHらがEvidence-Based Medicine誌で発表した論文では、エビデンスピラミッドそのものの再構成が提案されました(Murad et al, 2016)

Muradらの主張は次の2点に要約されます。

  • ピラミッド内の研究デザイン間の境界線は、直線ではなく波線で描くべき(GRADE評価でランクが上下するため)
  • SR/MAはピラミッドの最上位ではなく、「ピラミッド全体を見るレンズ(情報を吟味・統合する道具)」として位置づけるべき

この提案は、「SR/MAは研究デザインの1種ではなく、既存研究を整理する方法論」という、もう一歩深い理解を求めています。

もう一つの重要な議論が、Haynesらが提唱した6Sモデル(6S pyramid)です(DiCenso, Bayley & Haynes, 2009)

6Sモデルは「研究デザインのピラミッド」とは別の発想で、「臨床家が情報を探す順番」を整理したモデルです。上位から以下の6層になっています。

  1. Systems(システム):電子カルテ統合型の意思決定支援システム
  2. Summaries(サマリー):UpToDate等の疾患別エビデンス要約
  3. Synopses of syntheses(統合研究の要約):SRの構造化要約
  4. Syntheses(統合研究):SR/MA本体
  5. Synopses of studies(個別研究の要約):個別RCT等の構造化要約
  6. Studies(個別研究):個別のRCT・観察研究

「個別RCTを毎回ゼロから読むのではなく、まず上位(要約・統合)を探し、必要に応じて下位(個別研究)に降りる」という臨床家の検索行動を反映した実践的なモデルです。

古典ピラミッドが「研究の質」の階層であるのに対し、6Sモデルは「臨床利用しやすさ」の階層、という違いがあります。

リハビリ領域でエビデンスピラミッドはどう使われているか

リハビリ・神経領域の研究では、ピラミッド/GRADEはどの程度浸透しているのでしょうか。

2026年にSystematic Reviews誌で発表されたVazらの方法論調査によると、リハビリ・神経領域の主要13誌(2020-2022年掲載分)でGRADEを使用したSR/scoping reviewは限定的でした(Vaz et al, 2026)

具体的な数値は次のとおりです。

  • GRADE使用率が最も高かったのはNeurorehabilitation and Neural Repair誌:16.7%
  • Journal of Stroke and Cerebrovascular Diseases誌:4.8%
  • 最も使用されたダウングレード基準は「バイアスリスク」と「不精確」(いずれも100%)

「ジャーナルのインパクトファクターとGRADE使用率の間に相関はなく、リハビリ・神経領域の主要誌でもGRADEは広く使われていない」というのが、この調査の結論です(Vaz et al, 2026)

つまり、リハビリ領域のSR/MAを読むときは、「GRADE評価が記載されていない=エビデンスの確実性が低い」とは限らないものの、自分自身でバイアスリスク・一貫性・精度を確認する必要があります。

一方、リハビリ専門のSR/RCTの方法論的質を評価するスケールとして、PEDroスケールが広く使われています。

PEDroスケールはランダム化・隠蔽化・盲検化・脱落率・追跡完了率など11項目で評価し、Yamatoらの検証研究では信頼性・収束的妥当性・構成概念妥当性が許容範囲内であることが示されています(Yamato et al, 2017)

リハビリ領域のSR/MAでは、各組み入れRCTのPEDroスコアが付記されているケースが多く、GRADEを補完する形で活用されています(Cashin & McAuley, 2020)

※ PEDroスケールの基礎となる「リハビリ研究の方法論的質」については、別記事「取り込み基準・除外基準とは|セラピストのための論文選別の判断軸」でも触れています。

「エビデンスレベルが高い=そのまま臨床応用できる」ではない

ピラミッドの上位=そのまま臨床に持ち込めば良い、という考え方には注意が必要です。

整形外科領域では、SullivanらがPlastic and Reconstructive Surgery誌で「論文ヘッダーにレベル表示があると、読者はそのレベルだけで研究の価値を判断しがちだが、外的妥当性(自院の患者集団との一致度)は別物である」と指摘しています(Sullivan et al, 2021)

同様の議論は、ハンドサージャリー領域でもなされています(Hems, 2025)

リハビリ臨床に置き換えると、以下のようなケースで「ピラミッド上位の研究」がそのまま使えないことが起こります。

  • RCTの対象が発症3ヶ月以内の急性期患者で、目の前の患者が慢性期(発症1年超)の場合
  • SR/MAの組み入れ研究が軽症(FMA-UE 45点以上)中心で、目の前の患者が重度麻痺(FMA-UE 20点以下)の場合
  • RCTの介入頻度が週5日×60分で、自院の保険制度下では週2日×40分が上限の場合

このとき臨床家がすべきことは、「ピラミッド上位の研究を捨てる」ではなく、「研究結果を自分の患者の文脈に翻訳する」作業です。

具体的には次の3ステップで翻訳します。

  1. 研究のPICO(対象・介入・比較・アウトカム)を確認する
  2. 目の前の患者と研究対象の重要な差分を3つ以内に絞る(病期・重症度・併存疾患など)
  3. 差分が結果にどう影響するかを推定し、SDM(共有意思決定)の中で患者に説明する

※ PICOの組み立て方は別記事「クリニカルクエスチョンの作り方|前景疑問と背景疑問の区別|PT・OT実践ガイド」で詳しく解説しています。

BRAINでの臨床判断|エビデンスレベルとSDMの組み合わせ方

BRAIN(株式会社BRAINが運営する脳卒中専門リハビリ施設)では、エビデンスピラミッドを次の3つの場面で使い分けています。

場面①|介入の選択肢を絞る「初手」として使う

新規利用者の初回SDM(共有意思決定)面談で、リハビリ介入の選択肢を3〜5つに絞る際、まずピラミッドの上位(SR/MA・大規模RCT)でエビデンスがあるものを候補に挙げます。

エビデンスのない・あるいは弱い介入を最初から提示すると、患者・家族の意思決定が「セラピストの好み」に引きずられやすくなるからです。

場面②|外的妥当性のチェックリストとして使う

ピラミッド上位の研究を候補に挙げた後、必ず「自院の患者集団との差」をチェックします。

たとえば、BMI(Brain-Machine Interface)の重度上肢麻痺に対するRCT(Ramos-Murguialday 2013、PMID:23568447)は、慢性期・FMA-UE平均11点の対象で行われた研究です。

BRAINで導入する際は、利用者の病期と重症度がこの範囲に近いかを必ず確認し、外れる場合は「効果が同程度に出る保証はない」とSDMで明示します。

場面③|エビデンスが弱い領域では「症例報告+臨床経験」を堂々と使う

重度麻痺×慢性期×自費リハという、保険下では稀な組み合わせの介入は、SR/MAレベルのエビデンスがほぼ存在しません。

この領域では、症例報告や自施設の臨床経験をベースに介入を組み立てます。

大切なのは「エビデンスレベルが低い」ことを患者に隠さず、SDMで「現時点では症例報告レベルの根拠ですが、〇〇という理由で試す価値があると考えています」と明示することです。

※ リハビリ領域のガイドライン活用については、別記事「【セラピスト向け】脳卒中リハビリテーションにおけるガイドライン活用方法」も参考にしてください。

本記事のまとめ

  • エビデンスピラミッドは「研究デザインの内的妥当性」を縦軸で整理した枠組み。SR/MA→RCT→コホート→症例対照→症例報告→専門家意見の順
  • 現代ではGRADEシステムにより、研究デザインだけでなくバイアス・一貫性・間接性・精度・出版バイアスの5要素で総合評価する
  • Murad 2016の「新エビデンスピラミッド」やHaynes 6Sモデルなど、ピラミッドの捉え方は近年も更新されている
  • リハビリ・神経領域の主要誌でもGRADEは限定的(NNR 16.7%/JSCD 4.8%)。読者側で方法論的質を確認する習慣が必要
  • 「エビデンスレベルが高い=そのまま臨床応用できる」ではない。外的妥当性(自院の患者との一致度)をPICOで照合し、SDMで翻訳することが臨床家の役割

本記事の内容が、エビデンスレベルの判断に迷っているセラピストの役に立てましたら幸いです。

参考文献

Sackett DL, Rosenberg WM, Gray JA, Haynes RB, Richardson WS. Evidence based medicine: what it is and what it isn’t. BMJ. 1996;312(7023):71-72. PMID: 8555924

Atkins D, Best D, Briss PA, et al. Grading quality of evidence and strength of recommendations. BMJ. 2004;328(7454):1490. PMID: 15205295

Atkins D, Eccles M, Flottorp S, et al. Systems for grading the quality of evidence and the strength of recommendations I: critical appraisal of existing approaches. The GRADE Working Group. BMC Health Serv Res. 2004;4(1):38. PMID: 15615589

DiCenso A, Bayley L, Haynes RB. Accessing pre-appraised evidence: fine-tuning the 5S model into a 6S model. Evid Based Nurs. 2009;12(4):99-101. PMID: 19779069

Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. Evid Based Med. 2016;21(4):125-127. PMID: 27339128

Yamato TP, Maher C, Koes B, Moseley A. The PEDro scale had acceptably high convergent validity, construct validity, and interrater reliability in evaluating methodological quality of pharmaceutical trials. J Clin Epidemiol. 2017;86:176-181. PMID: 28288916

Cashin AG, McAuley JH. Clinimetrics: Physiotherapy Evidence Database (PEDro) Scale. J Physiother. 2020;66(1):59. PMID: 31521549

Sullivan D, Chung KC, Eaves FF, Rohrich RJ. The Level of Evidence Pyramid: Indicating Levels of Evidence in Plastic and Reconstructive Surgery Articles. Plast Reconstr Surg. 2021;148(1):68-69. PMID: 34699495

Hems T. Levels of evidence in hand surgery: a review and guide. J Hand Surg Eur Vol. 2025;50(3):295-303. PMID: 39852193

Vaz AB, Vasconcelos JM, Costa PHV, et al. A methodologic survey on use of the GRADE approach in evidence syntheses published in high-impact factor neurology journals. Syst Rev. 2026;15(1). PMID: 42026655

BRAINアカデミー

エビデンスに基づく脳卒中リハビリテーションを体系的・網羅的に学ぶ、3ヶ月間のオンライン学習プログラムです。①動画教材 ②課題 ③フィードバックを通じて、EBMを身に付けましょう!
詳細はこちら

書籍|文献検索の超基本

「先輩に聞けばいい」から卒業しませんか?

本書は、PT・OT・STが最短で文献検索を身につけるための一冊です。172ページ+40本の動画で、PubMed検索からAI活用まで実践的に学べます。第1章ではEBMの基礎、第4章では研究デザインの分類と読み方を体系的に解説。ChatGPT、Elicit、Semantic ScholarなどのAIツールを”なんとなく使う”のではなく、正しく臨床に活かす方法を体系的に解説しています。

詳細はこちら