「論文を読んだら p < 0.05 だったから、効果あり。それで臨床判断していいのだろうか?」

カンファレンスや抄読会でこんな疑問を抱いたことのあるPT・OT・STは多いはずです。

結論から言うと、p値だけでは臨床判断はできません。信頼区間(95% CI)の解釈こそが、研究結果を患者さんに翻訳する鍵になります。

本記事では、信頼区間の解釈をPT・OT・STの臨床判断に活かすための考え方を、最新の方法論論文と脳卒中リハビリの実例から解説します。

情報の信頼性について
・本記事はBRAIN代表/理学療法士の針谷が執筆しています(執筆者情報は記事最下部)。
・本記事の情報は、British Journal of Sports Medicine・NEJM Evidence・Eye・Plastic and Reconstructive Surgery等の方法論論文と、PLoS One・Frontiers in Neurology等の脳卒中リハビリ研究を中心に引用しています。
目次
  1. 本記事の結論
  2. 信頼区間とは何か|区間推定の基本
  3. なぜp値より信頼区間か|点推定と区間推定の違い
    1. p値が教えてくれること・くれないこと
    2. 信頼区間が教えてくれること
  4. 95%信頼区間の読み方|3つのパターンで使い分ける
    1. パターン①:CIが0をまたぐ(有意差なし)
    2. パターン②:CIが0をまたがないがMCIDを下回る(統計的有意・臨床的非重要)
    3. パターン③:CIの下限がMCIDを上回る(統計的有意・臨床的重要)
  5. リハビリ論文での実例|脳卒中RCTの信頼区間を読む
    1. 実例①:脳卒中後の上肢機能改善(FMA-UE)
    2. 実例②:上肢のFES(機能的電気刺激)
    3. 実例③:脳卒中後の2分間歩行試験のMCID検証
  6. BRAINの臨床判断|SDMで信頼区間をどう使うか
    1. 場面①:効果の期待値を「幅」で伝える
    2. 場面②:複数の介入候補を比較するとき
    3. 場面③:「効果なし」と読まれた研究の再評価
  7. 信頼区間を読む時の注意点
    1. 注意点①:CIは「95%の確率で真の値を含む」ではない
    2. 注意点②:CIが狭い=信頼できる、ではない
    3. 注意点③:CIの幅は研究デザインに依存する
  8. よくある質問(FAQ)
    1. Q1:95%以外の信頼区間(90%・99%)はどう違いますか?
    2. Q2:p値が0.05ぴったりの場合、CIはどう見える?
    3. Q3:オッズ比(OR)やリスク比(RR)の場合のCIは?
    4. Q4:CIが書かれていない論文はどう読めばいい?
    5. Q5:MCIDが文献ごとに違うときはどれを使えば?
  9. 本記事のまとめ
  10. 参考文献

本記事の結論

  • 信頼区間(95% CI)は「効果の大きさがどの範囲に収まりそうか」を示す区間推定で、点推定(平均差)とp値だけでは見えない情報を提供する
  • 95% CIが0をまたぐ/またがない/MCIDをまたぐの3パターンを使い分けると、臨床判断の解像度が一気に上がる
  • p < 0.05でも「臨床的に意味のある効果」とは限らない。CIの下限・上限とMCID(臨床的最小重要差)を必ず照らし合わせる

以下、詳しく解説していきます。

BASIC COURSE | EBP・文献検索
エビデンスを、
自分で調べられるセラピストへ。
英語論文の読み方、PubMedを使った文献検索、批判的吟味を体系的に。ElicitなどのAI活用も含め、「なんとなく」ではなく臨床に活かす文献検索が身につきます。
英語論文の読み方 / PubMed検索 / 批判的吟味
ベーシックコースを見る →
毎月1日開講・いつでもエントリー可能
オンライン/PT・OT向け/BRAINアカデミー

信頼区間とは何か|区間推定の基本

信頼区間(Confidence Interval, CI)は「真の効果がどの範囲に収まると考えられるか」を示す区間推定の値です。

論文では「平均差7.27点(95% CI 4.2〜10.3)」のように、点推定値(平均差や効果量)の後にカッコ付きで表記されます。

「95%」の意味を厳密に説明すると、同じ研究を100回繰り返したとき、そのうち95回の信頼区間が真の値を含むと期待される範囲です(眼科領域の臨床家向け解説論文より(Phillips et al, 2022))。

とはいえ、臨床現場でこの厳密な定義をそのまま使うのは少し回りくどい印象もあります。

実務的には「真の効果はだいたいこの範囲に入っていそう」という幅で読めば十分です。

実際、2022年のPreventive Medicine誌では、Greenlandらが「confidence interval」という呼び方そのものが過剰な自信を与える表現になっており、「compatibility interval(適合区間)」と呼び替える方が誤解を減らせると提唱しています(Greenland et al, 2022)

つまり、CIは「100%この範囲に真の値がある」と保証するものではなく、データと矛盾しない効果の値の範囲と捉えるのが正確です。

p値と信頼区間の対比表。p値だけでは効果の大きさ・不確実性・臨床的意義が見えないのに対し、信頼区間は4つの情報を同時に提示する。

BRAINの判断!

BRAINでは、信頼区間を「効果の振れ幅」と読んで臨床判断に使っています。点推定だけ見ると「平均7点改善」でも、CIが4点〜10点なら現場で再現できる効果の幅は4〜10点ある、と幅で受け取ることで、目の前の患者さんに対する期待値の調整がしやすくなります。

なぜp値より信頼区間か|点推定と区間推定の違い

結論として、p値は「有意か否か」の二択しか教えてくれないのに対して、信頼区間は「効果の大きさ」と「不確実性の幅」を同時に提示してくれます。

形成外科領域の2018年のレビューでは、「p値単独では治療効果の大きさを伝えられないため、信頼区間の併記は臨床的価値を判断するための必須情報」と明確に述べられています(Samargandi et al, 2018)

整形外科領域の2017年のJBJSのレビューでは、「研究者・査読者・読者の多くがp値を誤解しており、ASA(米国統計学会)の声明後も問題は続いている」と指摘されています(Gagnier & Morgenstern, 2017)

さらに2025年のJournal of Trauma and Acute Care Surgeryの方法論ガイドでは、「p値と95% CIをセットで読まないと、臨床上の意思決定で誤った結論を導きやすい」と整理されています(Choi & Garwe, 2025)

2026年のGlobal Epidemiology誌では、主要疫学誌におけるp値・CIの誤用実態が調査されており、掲載論文の多くで依然として「有意/非有意」の二分思考が残っていると報告されています(Hunter et al, 2026)

p値が教えてくれること・くれないこと

p値は「観察された結果(あるいはそれ以上の極端な結果)が、帰無仮説の下でどれくらい起こりにくいか」を表します。

逆に言うと、p値は以下のことを教えてくれません。

  • 効果の大きさ(何点改善するのか)
  • 効果のばらつきの幅(個人差はどの程度か)
  • 臨床的に意味のある差かどうか(MCIDを超えているか)

例えば、サンプル数が極端に大きい研究では、わずかな差でもp < 0.001になることがあります。

「p値が小さい=臨床的に重要な効果」ではありません。

2024年のNEJM Evidenceでは、Cochrane Databaseの23,551件のRCTを再解析した結果、公表されているRCTの多くが事前想定よりも小さい効果しか検出できておらず、p値だけでは臨床的意義の判断には不十分であると報告されています(van Zwet et al, 2024)

信頼区間が教えてくれること

一方で、信頼区間は以下の情報をまとめて提供します。

  • 効果の大きさ(点推定値)
  • 効果の不確実性の幅(区間の広さ)
  • 0を含むか含まないか(有意性の判断)
  • MCIDを超えているか(臨床的意義の判断)

2025年のBritish Journal of Sports Medicineでは、Greenlandらが「実用的関連性(practical relevance)」を基準にp値と区間推定を読み解く枠組みを提示しています(Rovetta et al, 2025)

つまり、「統計的に有意か」ではなく「臨床的に意味のある効果が示されているか」を読み解くために、信頼区間が必要です。

95%信頼区間の読み方|3つのパターンで使い分ける

結論として、信頼区間の解釈は「0をまたぐか」「MCIDをまたぐか」の2軸で判断すると整理しやすくなります。

具体的には、以下の3パターンに分けて読み解きます。

95%信頼区間の3パターン解釈図。0をまたぐ/またがないがMCIDを超えない/MCIDをまたぐ/MCIDを完全に超える、の4パターンを横棒グラフで表示。

パターン①:CIが0をまたぐ(有意差なし)

例:「介入群と対照群の平均差 2.1点(95% CI -1.3〜5.5)」

CIが0を含む(-1.3〜5.5にはマイナスもプラスも含まれる)ため、「効果あり」とも「効果なし」とも結論づけられません

ただし、この場合に「効果がない」と決めつけるのは早計です。

サンプル数が少なく検出力が不足している(CIが広い)だけかもしれないからです。

CIの上限・下限を見て「もし上限の効果が出たら臨床的に意味があるか?」を考えるのが、Phillips et al.(2022)が推奨する読み方です(Phillips et al, 2022)

パターン②:CIが0をまたがないがMCIDを下回る(統計的有意・臨床的非重要)

例:「介入群と対照群の平均差 3.2点(95% CI 1.5〜4.9)、MCID 5点」

CIが0を含まないため統計的には有意ですが、CIの上限(4.9)がMCID(5点)に届いていない状況です。

つまり、「効果はあるかもしれないが、患者さんが体感できる差にはならない可能性が高い」と読みます。

これがp値だけで判断する危険性の典型例です。p < 0.05だから採用、ではなく、MCIDとの距離で臨床的意義を判断する必要があります。

MCID(臨床的最小重要差、Minimal Clinically Important Difference)は評価指標ごとに値が異なります。例えば、脳卒中後の歩行速度の評価で使われる10m歩行試験や、上肢機能を評価するFMA-UE等は、評価指標別のカットオフ値・MCIDの整理がされています。

パターン③:CIの下限がMCIDを上回る(統計的有意・臨床的重要)

例:「介入群と対照群の平均差 7.3点(95% CI 5.5〜9.1)、MCID 5点」

CIの下限(5.5)がMCID(5点)を上回るため、「最悪のケースでも臨床的に意味のある差が出る」と読めます。

この場合は、エビデンスとして自信を持って臨床応用を検討できます。

一方、CIが「MCIDをまたぐ」場合(例:CI 3.0〜9.0、MCID 5点)は、「効果が出る患者さんもいれば、体感できない患者さんもいる」という個人差を前提に判断します。

2026年のFrontiers in Veterinary Scienceの臨床向けガイドでも、「CIの両端を見て、最悪ケース・最良ケースの両方で臨床的意義があるかを判定する」アプローチが推奨されています(Pugliese et al, 2026 — 獣医領域からの引用だが、CI解釈の方法論は人医療と共通)

リハビリ論文での実例|脳卒中RCTの信頼区間を読む

方法論の話だけでは抽象的なので、脳卒中リハビリの実例で信頼区間を読んでみます。

実例①:脳卒中後の上肢機能改善(FMA-UE)

2022年のAnnals of Palliative Medicineに掲載されたシステマティックレビュー&メタアナリシス(理学療法ベースのリハビリと従来治療の比較)では、回復期脳卒中患者のFMA-UEスコアで「介入群が対照群より平均7.27点高い(95% CI 4.20〜10.35)」と報告されています(Huang et al, 2022)

この信頼区間をどう読むか。

  • CIが0をまたいでいないので統計的有意
  • CIの下限が4.20点。FMA-UEのMCIDは諸研究で4.25〜7.25点とされており、CIの下限はMCIDの下限付近
  • CIの上限は10.35点と幅広く、最良ケースでは臨床的に明確な改善が期待できる

つまり、「効果が出る可能性は高いが、患者さんによってはMCIDに届かない場合もある」というのが現実的な読み方です。

実例②:上肢のFES(機能的電気刺激)

2023年のFrontiers in Neurologyのシステマティックレビューでは、上肢FESによる脳卒中後リハビリの効果が解析されています。手動制御FESの平均差は5.6点(95% CI 3.5〜7.7、FMA-UE)と報告されました(Khan et al, 2023)

CIの下限3.5点はMCIDの一般的範囲(4.25〜7.25点)を下回るため、最悪ケースでは患者さんに体感されない可能性があります。

一方で上限7.7点は十分な臨床効果を示唆しており、「平均的には有効だが個人差が大きい」介入と捉えるのが妥当です。

実例③:脳卒中後の2分間歩行試験のMCID検証

2026年のPLoS Oneに掲載された亜急性期脳卒中患者を対象とした多施設コホート研究では、2分間歩行試験(2MWT)のMCIDを検証しています(Khan et al, 2026)

この論文では、MCIDのカットオフ値そのものも信頼区間付きで提示されており、「MCIDの推定値も区間で捉える」という考え方が示されています。

点推定値のMCIDだけを基準に判断するのではなく、MCID自体の信頼区間も意識して臨床判断するのが、より厳密なEBP実践です。

BRAINの臨床判断|SDMで信頼区間をどう使うか

BRAINでは、信頼区間を患者さんへの説明(Shared Decision Making:SDM)で次の3つの場面に使い分けています。

文献検索・批判的吟味を体系的に身につけたい方へ。
ベーシックコースの詳細を見る →

場面①:効果の期待値を「幅」で伝える

「この治療で平均7点改善します」と伝えるのではなく、「だいたい4〜10点くらい改善した報告があります」と幅で伝えます。

点推定値だけを伝えると患者さんの期待値が固定化されすぎるため、CIの幅を含めて伝えることで、現実的な目標設定がしやすくなります。

BRAINの判断!

BRAINでは、SDM面談時に「7点改善する研究が多いです」ではなく、「研究結果を見ると4点〜10点の幅で改善が報告されています。あなたの状態だと中央付近を目標にしましょう」と伝えています。患者さん自身が自分の現実的な到達点を把握できるようになります。

場面②:複数の介入候補を比較するとき

「介入Aは平均5点改善、介入Bは平均6点改善」と点推定だけで比較すると「Bの方が良い」と単純に判断しがちです。

しかし、「介入A:5点(95% CI 4〜6)/介入B:6点(95% CI 1〜11)」と並べると、介入Aの方が「効果は小さいが確実」、介入Bは「平均は大きいが個人差が激しい」と読めます。

CIの幅まで含めて比較すると、患者さんの「外れ値に賭けたいか・安定を取りたいか」というリスク選好も含めて選択肢を提示できます。

場面③:「効果なし」と読まれた研究の再評価

「p > 0.05だったから効果なし」と書かれている論文でも、信頼区間を見れば話が変わる場合があります。

例えば、「平均差 4.5点(95% CI -0.3〜9.3)」だと0をわずかにまたぐので統計的には有意ではありませんが、CIの上限9.3点はMCIDを超える可能性を示しており、「サンプル数が足りずに有意差が出なかった可能性」を示唆します。

「有意差なし=効果なし」ではない、これは方法論論文が一貫して警告している点です(Greenland et al, 2022/Rovetta et al, 2025)。

BRAINの判断!

BRAINでは、「効果なし」と書かれた研究を見るときは、必ずCIの上限を確認しています。CIの上限がMCIDを超えていれば「効果が出る可能性は否定できていない」と読み直し、目の前の患者さんの臨床判断には、必要に応じて「条件付きで試す価値あり」と評価します。

信頼区間を読む時の注意点

注意点①:CIは「95%の確率で真の値を含む」ではない

厳密な統計学的解釈では、「95%の確率で真の値がこの区間に入る」という言い方は誤りです。

正しい解釈は、「研究を100回繰り返したとき、95回のCIは真の値を含む」という長期的な頻度の話です(Phillips et al, 2022)。

とはいえ、臨床現場では「データと矛盾しない効果の範囲」という実用的な読み方で十分です。

注意点②:CIが狭い=信頼できる、ではない

CIの幅が狭いと「精度が高い」と感じがちですが、サンプル数を恣意的に大きくしただけでもCIは狭くなります

研究の質(バイアスリスク・対象集団の代表性・介入の標準化)が低いまま、サンプル数だけで狭いCIを示している研究は要注意です。

批判的吟味(Critical Appraisal)のスキルと組み合わせて、CIの広さを読み解く必要があります。

注意点③:CIの幅は研究デザインに依存する

並列群間RCTのCIと、クロスオーバー試験のCI、観察研究のCIは、それぞれ統計的前提が異なります。

同じ「95% CI」でも、研究デザインが違えば解釈の文脈が異なる点に注意してください(Choi & Garwe, 2025)

論文を読むときは、Methods欄で研究デザインを確認してから結果のCIを解釈しましょう。詳しい方法と結果の読み方は、別記事「論文の読み方|PT・OTが押さえる「方法」と「結果」の2つだけ」でも解説しています。

よくある質問(FAQ)

Q1:95%以外の信頼区間(90%・99%)はどう違いますか?

90% CIは95% CIより狭く、99% CIは広くなります。

狭いと「効果あり」と判定しやすくなりますが、研究分野の慣習として95% CIが標準なので、特別な理由がない限り95% CIで読むのが基本です。

Q2:p値が0.05ぴったりの場合、CIはどう見える?

p = 0.05のとき、95% CIの下限がちょうど0になります。

つまり、「CIが0をまたぐかどうか」と「p値が0.05より小さいかどうか」は同じことを言っています。

違いは、CIは「効果の大きさ」も同時に教えてくれる点です。

Q3:オッズ比(OR)やリスク比(RR)の場合のCIは?

OR・RRの場合は、CIが「1をまたぐかどうか」で有意性を判断します(連続変数の0と同じ役割)。

例:「OR 1.5(95% CI 1.2〜1.9)」なら1をまたがないので有意。「OR 1.2(95% CI 0.8〜1.7)」なら1をまたぐので非有意です。

Q4:CIが書かれていない論文はどう読めばいい?

古い論文や日本語論文では、CIが書かれていないこともあります。

その場合は、平均値・標準偏差・サンプル数からCIを概算できますが、原則としてCIが報告されていない論文は批判的吟味の対象として一段下げて読むのが安全です(Samargandi et al, 2018)。

Q5:MCIDが文献ごとに違うときはどれを使えば?

MCID自体も推定値であり、対象集団や算出方法で変動します。

BRAINでは、対象患者さんと近い集団(重症度・回復期相)のMCIDを優先採用し、それでも複数値がある場合は「最小値〜最大値の幅」で評価しています。

本記事のまとめ

  • 信頼区間は「効果の大きさ」と「不確実性の幅」を同時に提示する区間推定で、p値だけでは見えない情報を教えてくれる
  • 95% CIの読み方は「0をまたぐか」「MCIDをまたぐか」の2軸で整理する
  • p < 0.05でもCIの上限がMCIDに届かないと臨床的に意味のある差にはならない
  • SDMでは「効果の幅」を患者さんに伝えることで、現実的な目標設定とリスク選好の共有ができる

p値だけで判断する習慣から卒業し、信頼区間とMCIDを併せて読む臨床判断に切り替えることで、エビデンスを患者さんへ翻訳する精度が一段上がります。

本記事のテーマをさらに体系的に学びたい方は、書籍『文献検索の超基本』の第8章「推測統計の基本」で、p値・CI・効果量を一気通貫で解説していますのでご参照ください。

関連記事:

参考文献

Rovetta A, Mansournia MA, Stovitz SD, Adams WM, Greenland S. Interpreting p values and interval estimates based on practical relevance: guidance for the sports medicine clinician. Br J Sports Med. 2025. PMID: 41047146

Phillips MR, Wykoff CC, Thabane L, Bhandari M, Chaudhary V. The clinician’s guide to p values, confidence intervals, and magnitude of effects. Eye (Lond). 2022. PMID: 34837035

Choi J, Garwe T. Common statistical pitfalls in clinical research: The guide to avoid misinterpreting p values, confidence intervals, odds ratios, and more. J Trauma Acute Care Surg. 2025. PMID: 40611376

Hunter MK, Russell AJ, Maldonado G, Burstyn I. Exploring the proper use of p-values and confidence intervals in leading epidemiology journals. Glob Epidemiol. 2026. PMID: 41608312

Samargandi OA, Al-Taha M, Moran K, Al Youha S, Bezuhly M. Why the p Value Alone Is Not Enough: The Need for Confidence Intervals in Plastic Surgery Research. Plast Reconstr Surg. 2018. PMID: 28938365

Gagnier JJ, Morgenstern H. Misconceptions, Misuses, and Misinterpretations of P Values and Significance Testing. J Bone Joint Surg Am. 2017. PMID: 28926390

Greenland S, Mansournia MA, Joffe M. To curb research misreporting, replace significance and confidence by compatibility: A Preventive Medicine Golden Jubilee article. Prev Med. 2022. PMID: 35787846

Pugliese BR, Hallowell KL, Vigneshwar A, Ford EG 4th, Connard SS, Love K, Lascelles BDX. Veterinarians’ brief guide to confidence intervals, standardized effect size, and number needed to treat: understanding the impact of treatments and disease. Front Vet Sci. 2026. PMID: 41938766

van Zwet E, Gelman A, Greenland S, Imbens G, Schwab S, Goodman SN. A New Look at P Values for Randomized Clinical Trials. NEJM Evid. 2024. PMID: 38320512

Khan M, Muzamil HS, Osailan AM, Alhammad AA, Khan S, Mushtaq M, Moustafa EBES, Alsalem TNS, Muteesasira E. Validating the 2-minute walk test MCID for subacute stroke patients: A Pakistani multicenter cohort analysis. PLoS One. 2026. PMID: 41984927

Huang J, Ji JR, Liang C, Zhang YZ, Sun HC, Yan YH, Xing XB. Effects of physical therapy-based rehabilitation on recovery of upper limb motor function after stroke in adults: a systematic review and meta-analysis of randomized controlled trials. Ann Palliat Med. 2022. PMID: 35249330

Khan MA, Fares H, Ghayvat H, Brunner IC, Puthusserypady S, Razavi B, Lansberg M, Poon A, Meador KJ. A systematic review on functional electrical stimulation based rehabilitation systems for upper limb post-stroke recovery. Front Neurol. 2023. PMID: 38145118

BASIC COURSE | EBP・文献検索
エビデンスを、
自分で調べられるセラピストへ。
英語論文の読み方、PubMedを使った文献検索、批判的吟味を体系的に。ElicitなどのAI活用も含め、「なんとなく」ではなく臨床に活かす文献検索が身につきます。
英語論文の読み方 / PubMed検索 / 批判的吟味
ベーシックコースを見る →
毎月1日開講・いつでもエントリー可能
オンライン/PT・OT向け/BRAINアカデミー

書籍|文献検索の超基本

「先輩に聞けばいい」から卒業しませんか?

本書は、PT・OT・STが最短で文献検索を身につけるための一冊です。172ページ+40本の動画で、PubMed検索からAI活用まで実践的に学べます。ChatGPT、Elicit、Semantic ScholarなどのAIツールを”なんとなく使う”のではなく、正しく臨床に活かす方法を体系的に解説。文献検索は、早く身につけた人が圧倒的に伸びます。エビデンスを自分で調べられるセラピストになりませんか?

詳細はこちら