
「p値が0.05未満で有意でした」。論文を読んでいると、最も頻繁に目にする一文です。
けれども、p値だけで「この介入は臨床で使える」と判断していないでしょうか。
統計学的に有意な差(p<0.05)と、患者さんに本当に意味のある差は、同じではありません。両者をつなぐ橋渡し役が「効果量(effect size)」です。
本記事では、効果量の定義・主要な種類・解釈基準・リハビリ研究での実例まで、PT・OT・STが臨床判断に活かす形で解説します。
情報の信頼性について
・本記事はBRAIN代表/理学療法士の針谷が執筆しています(執筆者情報は記事最下部)。
・本記事の情報は、効果量の方法論研究・脳卒中リハビリのシステマティックレビュー/メタアナリシスから得られたデータを中心に引用しています。
自分で調べられるセラピストへ。
オンライン/PT・OT向け/BRAINアカデミー
本記事の結論
- 効果量は「介入の効き具合」を数値化した指標で、p値とセットで見ることでサンプルサイズの大小に左右されない判断ができる
- リハビリ研究では Cohen’s d / Hedges’ g / SMD(標準化平均差)が主流。0.2=small・0.5=medium・0.8=largeが古典的な目安だが、領域ごとに再校正が必要
- 効果量・信頼区間・MCID(最小臨床重要差)を組み合わせることで、「統計上の差」と「患者さんに意味のある差」を区別できる
以下、詳しく解説していきます。
効果量とは何か|p値だけでは見えない「差の大きさ」
効果量(effect size)とは、介入による「差の大きさ」や「関連の強さ」を、サンプルサイズに依存せず数値化した指標です。
p値が「差がたまたま生じた確率」を示すのに対し、効果量は「差そのものの大きさ」を示します。
両者の関係を簡単に整理すると、以下のとおりです。
- p値:「観察された差は偶然か?」を判定する確率。サンプルサイズが大きいほど小さくなりやすい
- 効果量:「差はどれくらい大きいのか?」を測る数値。サンプルサイズに依存しない
サンプルサイズが大きいRCTでは、臨床的にほぼ意味のない差でもp<0.05が出てしまうのが、p値偏重の最大の落とし穴です。
この問題は、近年の方法論研究で繰り返し指摘されています。2025年にBMJ Openで発表された、PubMed索引のRCT(2018〜2022年)を対象とした方法論研究では、「統計学的に有意」と報告されたRCTのうち、事前定義された臨床的に重要な差(MCID)に到達していない試験が一定数存在することが示されました(Esterhuizen et al, 2025)。
さらに2026年Journal of Visceral Surgeryのレビューでは、「P<0.05という閾値は科学的エビデンスを評価する数ある要素のひとつに過ぎず、効果量や臨床的妥当性とセットで議論されるべき」と提言されています(Slim et al, 2026)。
つまり、PT・OT・STが論文を読むときには、p値だけで結論を判断せず、必ず効果量を併せて確認することが、臨床判断の精度を上げる第一歩になります。
※ 効果量の前提となる統計の基礎については「推測統計と記述統計|PT・OTのための統計用語ガイド」で解説しています(公開後はこちらも併せて参照ください)。

主要な効果量の種類|Cohen’s d / Hedges’ g / SMD / r / OR
リハビリ研究で目にする効果量は、おおむね5種類に絞られます。
用途と計算式の概要を整理します。
① Cohen’s d(コーエンのd)
2群の平均値の差を、群の標準偏差(プールしたSD)で割ったもの。
計算式:d =(介入群の平均 − 対照群の平均)÷ プールされた標準偏差
連続変数(FMA-UE、BBS、TUG、歩行速度等)を扱うRCTで最も頻繁に使われます。
② Hedges’ g(ヘッジズのg)
Cohen’s d を、サンプルサイズが小さい場合のバイアス補正した派生指標です。
各群のn<20など小規模試験ではHedges’ gの方が推奨されます。解釈の基準値はCohen’s dと同じです。
③ SMD(Standardized Mean Difference/標準化平均差)
メタアナリシスで複数試験の効果量をプール(統合)するときに用いる総称的な名称です。
Cohen’s d と Hedges’ g を含む広い概念で、フォレストプロット上では「SMD = ◯◯(95%CI: ◯◯〜◯◯)」と表記されます。
脳卒中リハビリのMA/SRを読むときは、まずSMDの値と95%信頼区間を確認するのが基本です。
④ r(相関係数)
2つの変数の関連の強さを示す指標。−1〜+1の範囲を取ります。
例:FMA-UEとBIの相関、訓練量と運動機能改善の関連、年齢と回復速度の関連など、相関分析の効果量として使われます。
⑤ OR(オッズ比)/RR(リスク比)/RD(リスク差)
二値アウトカム(達成/非達成、転倒あり/なし、自宅復帰/施設退院など)を扱うときの効果量です。
- OR(odds ratio):2群のオッズ(起こる確率÷起こらない確率)の比
- RR(risk ratio/relative risk):2群の発生率の比
- RD(risk difference):2群の発生率の差
注意:ORは「○倍起こりやすい」と言い換えるのは誤訳です。ORは確率比ではなくオッズ比なので、「強い関連」「独立予測因子」という表現に置き換えるのが正確です。
※ それぞれの数値が論文のどこに書かれているかは「論文の読み方|PT・OTが押さえる「方法」と「結果」の2つだけ」も併せてご覧ください。
効果量の解釈基準|Cohen 1988の0.2/0.5/0.8と、その限界
Cohen’s d の古典的な解釈基準は、Cohen 1988年の書籍『Statistical Power Analysis for the Behavioral Sciences』で提案されました。
- d = 0.2 :small(小さい効果)
- d = 0.5 :medium(中等度の効果)
- d = 0.8 :large(大きい効果)
この目安は40年近く広く使われてきましたが、「すべての研究領域に一律に当てはめるべきではない」という批判が、近年の方法論研究で繰り返し指摘されています。
2026年にBehavior Research Methodsで発表された方法論論文では、「汎用的な効果量ベンチマーク(0.2/0.5/0.8)への過度な依存は誤解釈を生み、結果として誤ったサンプルサイズ推定や偽陽性結果の増加につながる」と警告されています(Glaser et al, 2026)。同論文は、研究領域ごとに過去の効果量分布を再校正する手順をRパッケージで提供しています。
また2026年Archives of Physical Medicine and Rehabilitationに掲載された痛み研究の効果量ガイドラインでは、「痛み研究では地域差を考慮した参照閾値とサンプルサイズ目安を別途設定すべき」と提案されています(Zieliński, 2026)。
つまりリハビリ研究の文脈では、「d=0.8だから臨床的にも大きい効果」とは限らないということ。Cohen 1988の基準値は出発点として有用ですが、最終的な判断は同じ評価指標を扱った過去のMA/SRと比較するのが安全です。
BRAINの判断!
BRAINでは、効果量の解釈で「Cohen 1988基準は出発点、最終判断は同領域のMA分布」というルールを使っています。例えば脳卒中上肢のFMA-UEを扱う論文なら、近年の上肢リハMA(例:Park 2025のロボット療法アンブレラ)でプールされたSMDの分布と照らして判定します。
効果量・信頼区間・MCIDの三点セットで読む
リハビリ研究を読むとき、効果量だけを単独で見ても判断はできません。
必ず以下の3つをセットで確認します。
- ① 効果量(SMD・Cohen’s d など):差の大きさ
- ② 95%信頼区間(CI):推定値の不確実性の幅
- ③ MCID(Minimal Clinically Important Difference/最小臨床重要差):患者さんが「変わった」と感じる最小の差
なぜ3つセットなのか
2025年にClinical Chemistry and Laboratory Medicineで発表された方法論レビューでは、「統計学的有意性は『偶然ではない』ことしか示さない。介入が臨床的に有用かどうかは効果量と臨床的判断で評価する必要がある」と整理されています(Alp et al, 2025)。
同じく2025年Indian Journal of Anaesthesiaの論考でも、「臨床的有意性と統計学的有意性は別物であり、臨床判断は両者をセットで評価すべき」と強調されています(Mohanty et al, 2025)。
脳卒中リハビリのMCID実例
脳卒中領域では近年、評価指標ごとのMCIDが続々と報告されています。例えば、
- PASS(姿勢評価スケール):MCIDが定量化された(Aka et al, 2026, Arch Phys Med Rehabil)
- TIS(体幹機能評価):同論文で同時にMCID報告
- KUSBS(カンザス大立位バランス評価):急性〜亜急性期脳卒中でアンカーベースのMCIDが算出(Kim et al, 2026, Physiother Theory Pract)
PASS/TISのMCIDは脳卒中リハビリ65名で算出され(Aka et al, 2026)、KUSBSは急性〜亜急性期脳卒中407名で算出されています(Kim et al, 2026)。
論文で「群間差が統計学的に有意」と書かれていても、その差がMCIDを下回っていれば、患者さんは変化を体感できない可能性が高いのです。
BRAINの判断!
BRAINの臨床判断では、論文を引用するときに「①SMD(または平均差)、②95%CI、③MCIDとの大小」の3点をセットで確認しています。例えば「FMA-UEで群間差5.2点、MCIDが4.25〜7.25点」なら、点推定値はMCID範囲内ですが下限と上限の解釈は分かれるため、信頼区間まで確認します。
リハビリ研究の効果量を読み解く|3つの実例
ここからは、脳卒中リハビリの最新MA/SRから、効果量がどのように報告・解釈されているかを3例で確認します。

実例①|脳卒中上肢のロボット療法(Park et al, 2025, Stroke)
2025年にStroke誌で発表された、脳卒中上肢ロボット療法のアンブレラレビューでは、396 RCT・16のメタアナリシスを統合し、ロボット療法の上肢機能改善効果が解析されました(Park et al, 2025)。
各MAでSMDが報告されており、研究によってプール値にばらつきがあること、そのばらつき自体が「ロボット療法は一律に効くわけではない」という臨床的示唆につながることが整理されています。
アンブレラレビューは「個々のMAでは見えない、領域全体のSMD分布」を見るのに最適で、効果量の領域別校正(Glaser 2026の提言)にも役立ちます。
実例②|rTMS×リハの脳卒中上肢ネットワークMA(Lin et al, 2025, Stroke)
2025年Stroke誌に発表されたネットワークメタアナリシスでは、rTMS(反復経頭蓋磁気刺激)と4種類のリハビリ手法の併用効果が、脳卒中上肢機能と日常生活活動でSMDとして比較されました(Lin et al, 2025)。
ネットワークMAは複数の介入を間接比較できる手法で、SMDのランキングが提示されます。「どの介入が最もSMDが大きいか」を視覚的に確認できるため、臨床判断材料として有用です。
実例③|シリアスゲームの脳卒中上肢SR・MA(Zhang et al, 2026, JAMDA)
2026年Journal of the American Medical Directors Associationの系統的レビュー・メタアナリシスでは、シリアスゲームを用いた脳卒中上肢リハの効果がSMDで評価されました(Zhang et al, 2026)。
新興介入(シリアスゲーム)のような領域では、確立した介入と比較してプールSMDの幅が広くなる傾向があり、信頼区間と研究数を併せて評価することが特に重要です。
3つの実例に共通するのは、「SMDの点推定だけでなく、95%CI・組み入れ研究数・研究間異質性(I²)まで確認する」という読み方です。
※ 自分が読みたい論文をどう探すかは「クリニカルクエスチョンの作り方|前景疑問と背景疑問の区別|PT・OT実践ガイド」もご覧ください。
BRAINでの効果量の使い方|介入選択に活かす3つの場面
BRAINでは、効果量を以下の3つの場面で日常的に活用しています。
場面①:複数の介入候補から「どれを選ぶか」を決めるとき
担当患者さんに対して、A介入とB介入のどちらを優先するか判断する場面で、同じアウトカム(例:FMA-UE)に対する両介入のSMD分布を比較します。
SMDの中央値が大きい方を第一選択、近い場合は副作用・実施可能性で選ぶというルールです。
場面②:SDM(共有意思決定)の根拠資料を作るとき
患者さん・ご家族との意思決定の場面で、「この介入はFMA-UEで平均◯点改善が期待できます(95%CI: ◯〜◯)」と数値で説明します。
SMDをそのまま伝えるのではなく、「元の評価指標の単位」に戻して説明するのがポイントです。
場面③:抄読会・院内勉強会で論文を吟味するとき
抄読会で論文を吟味する際、「p値ではなく、効果量と信頼区間で結論を再評価する」のがBRAINの定例フォーマットです。
p<0.05だけで「効く」と結論された論文でも、SMDが0.2未満であれば臨床現場での導入優先度は下がります。逆にp=0.07でもSMDが0.8を超えていれば、「検出力不足の可能性」を疑って再検証します。
BRAINの判断!
BRAINの抄読会では、論文1本につき「①PICO要約、②主要アウトカムの効果量と95%CI、③MCIDとの比較、④BRAIN患者層への適用可否」の4点を必ず議論します。p値の議論はその後です。
よくある質問(FAQ)
Q1:Cohen’s d と SMD は何が違いますか?
Cohen’s d は2群比較で使う具体的な効果量、SMD はメタアナリシスで複数研究をまとめるときの総称的な名称です。SMD は Cohen’s d や Hedges’ g を含む広い概念だと理解してください。
Q2:効果量が0.2未満なら、その介入は使わなくていいですか?
機械的に切り捨てるのは危険です。MCIDを下回っている可能性は高いものの、対象集団・併用介入・コスト・実施可能性も判断材料に入れます。同領域の他のMAでのSMD分布と比較して、相対的に低いかを必ず確認してください。
Q3:論文に効果量が書かれていない場合はどうすればいいですか?
群間の平均値・標準偏差・サンプルサイズが書かれていれば、Cohen’s d は手計算できます。オンラインの効果量計算機(例:Psychometrica や campbellcollaboration の Effect Size Calculator)を使うと簡便です。
Q4:効果量と95%信頼区間はどちらが大事ですか?
両方セットです。点推定(効果量)は「最もありそうな値」、信頼区間は「真の値がある確率の高い範囲」を示します。信頼区間が0を跨ぐ場合、効果量がいくら大きくても結論の不確実性が高いと判断してください。
Q5:Cohen 1988の基準(0.2/0.5/0.8)はもう古いですか?
古いというより「出発点として有用だが、領域固有の校正が必要」というのが現在の方法論的合意です(Glaser et al, 2026)。脳卒中リハビリ領域では、自分の関心領域のMA/SRでプールされたSMDの分布を確認するのが最も実務的です。
本記事のまとめ
- 効果量は介入の「差の大きさ」を示す指標。p値とセットで見ることで、サンプルサイズの大小に振り回されない判断ができる
- 主要な効果量は Cohen’s d / Hedges’ g / SMD / r / OR。リハビリRCT・MAでは SMD(標準化平均差)が最も頻出
- Cohen 1988の0.2/0.5/0.8は出発点。最終判断は領域別のMA分布・95%CI・MCIDとの3点セットで行う
- BRAINでは効果量を、介入選択・SDM資料・抄読会の3場面で活用している
本記事の内容が、論文を効果量から読み解きたいセラピストの役に立てましたら幸いです。
※ 効果量を含む論文評価の全体像は「EBP/EBMとは|リハビリ臨床への活かし方|PT・OTのための実践ガイド」、論文選別の判断軸は「取り込み基準・除外基準とは|セラピストのための論文選別の判断軸」も併せて読むと、EBPの実践力が一気に伸びます。
参考文献
Cohen J. Statistical Power Analysis for the Behavioral Sciences, 2nd Edition. Lawrence Erlbaum Associates. 1988.(書籍/PubMed索引なし)
Glaser BD, Kang H, Audunsdottir K, et al. A tutorial for calculating field-specific effect size distributions. Behav Res Methods. 2026. PMID: 42056646
Zieliński G. Getting to Know Pain Effect Sizes-Guidelines for Effect Size and Sample Size in Global Pain Research. Arch Phys Med Rehabil. 2026. PMID: 41554392
Esterhuizen TM, Mbuagbaw L, Rehman N, et al. Disparity between statistical significance and clinical importance in published randomised controlled trials: a methodological study. BMJ Open. 2025. PMID: 40854849
Slim K, Dziri C, Occean B. Goodbye P<0.05. P-value is simply one item among many to gauge scientific evidence. J Visc Surg. 2026. PMID: 41748420
Alp HH, Tran MTC, Markus C, et al. Clinical vs. statistical significance: considerations for clinical laboratories. Clin Chem Lab Med. 2025. PMID: 40195690
Mohanty CR, Barik AK, David GAJ, et al. Clinical significance versus statistical significance: Does it matter in clinical practice? Indian J Anaesth. 2025. PMID: 40160911
Park JM, Park HJ, Yoon SY, et al. Effects of Robot-Assisted Therapy for Upper Limb Rehabilitation After Stroke: An Umbrella Review of Systematic Reviews. Stroke. 2025. PMID: 40115991
Lin X, Li H, Chen N, Wu X. Network Meta-Analysis of 4 Rehabilitation Methods With rTMS on Upper Limb Function and Daily Activities in Patients With Stroke. Stroke. 2025. PMID: 40444349
Zhang T, Yan H, Liu Y, et al. The Intervention Effect of Serious Games on Upper Limb Motor Function and Activities of Daily Living in Stroke Patients: A Systematic Review and Meta-Analysis. J Am Med Dir Assoc. 2026. PMID: 41506614
Aka T, Kahraman T, Altas EU. Minimal Clinically Important Difference for Postural Assessment Scale for Stroke Patients (PASS) and Trunk Impairment Scale (TIS) in Persons With Stroke. Arch Phys Med Rehabil. 2026. PMID: 40633606
Kim A, Kim Y, Ji M, Lim JY. Minimal clinically important difference of the Kansas University standing balance scale in patients with acute-to-subacute stroke using two external anchors. Physiother Theory Pract. 2026. PMID: 40818071
自分で調べられるセラピストへ。
オンライン/PT・OT向け/BRAINアカデミー


