「論文のResults欄に出てくる平均値と標準偏差は何を表しているのか」「p値と95%信頼区間はどちらを優先して読めばいいのか」

PT・OTが研究論文を読むとき、こうした統計の表記に戸惑った経験は誰しもあるはずです。

論文に登場する統計には大きく2種類あります。それが「記述統計(descriptive statistics)」と「推測統計(inferential statistics)」です。

この2つは「何のために計算された数字なのか」が根本的に違うため、混同したまま論文を読むと、研究結果の意味を取り違える危険があります。

今回は、PT・OTが論文を読むときに必ず区別すべき記述統計と推測統計の違いを、定義・具体例・論文での見分け方・臨床への翻訳まで体系的に解説します。

情報の信頼性について
・本記事はBRAIN代表/理学療法士の針谷が執筆しています(執筆者情報は記事最下部)。
・本記事は、BJA Educationの統計学解説シリーズ(Sidebotham 2025ほか)、呼吸ケア領域の統計入門(Hess 2024)、リハビリ・障害領域の観察研究レビュー(Shepherd 2024)など、臨床読者向けに執筆された信頼性の高い解説論文を中心に引用しています。
目次
  1. 本記事の結論
  2. 記述統計とは|目の前のデータをそのまま要約する
    1. 記述統計の代表的な指標
    2. 論文では「対象者の背景」を記述統計で示す
  3. 推測統計とは|標本から母集団を推し量る
    1. 推測統計の代表的な指標
    2. 推測統計には頻度論とベイズの2系統がある
  4. 2つの統計を区別すべき3つの理由
    1. 理由①:平均値だけで「介入の効果」を判断してしまう
    2. 理由②:p値だけで「介入効果なし」と切り捨ててしまう
    3. 理由③:QI・症例集積を「推測統計」で評価しようとしてしまう
  5. 論文を読むときの実践チェックポイント
    1. チェック①:Methods欄の「Statistical Analysis」を最初に読む
    2. チェック②:Results欄の前半は記述統計、後半は推測統計
    3. チェック③:p値だけでなく95%CIと効果量も必ず確認する
  6. BRAINでの統計の使い分け|臨床判断3例
    1. 事例①:RCTを参照して上肢介入の提示を判断する
    2. 事例②:自施設の症例集積データはSPCチャートで可視化する
    3. 事例③:患者さんへの効果説明では効果量より臨床的に意味ある差を優先する
  7. よくある質問(FAQ)
    1. Q1:記述統計と推測統計はどちらが「上」ですか?
    2. Q2:平均値と中央値はどちらを使うべきですか?
    3. Q3:p<0.05なら必ず「臨床的に意味ある」と判断していいですか?
    4. Q4:自施設の患者データの分析にはどちらを使えばいいですか?
    5. Q5:統計を体系的に学ぶのにおすすめの論文はありますか?
  8. 本記事のまとめ
  9. 参考文献

本記事の結論

  • 記述統計は「目の前にあるデータそのものをまとめる」統計で、平均・標準偏差・中央値・四分位範囲などが代表的
  • 推測統計は「目の前のデータ(標本)から母集団の性質を推し量る」統計で、p値・95%信頼区間・効果量が代表的
  • 論文のMethods欄とResults欄では2つの統計が同じ表に並んで登場するため、見分けて読む力がPT・OTには必須

以下、詳しく解説していきます。

記述統計と推測統計の違いを示す概念図

記述統計とは|目の前のデータをそのまま要約する

記述統計(descriptive statistics)は、収集したデータそのものの特徴を数字で要約するための統計です。

「いま手元にある30人の患者さんが、平均何歳で、Fugl-Meyer Assessment Upper Extremity(FMA-UE)が平均何点だったか」を表現する数字が、すべて記述統計に該当します。

呼吸ケア領域の臨床家向け統計入門レビューでは、記述統計は「データを要約・整理し、研究者や読者がデータの全体像を把握できるようにするもの」と位置づけられています(Hess, 2024)。

記述統計の代表的な指標

PT・OTが論文でよく目にする記述統計は、以下の4種類です。

  • 平均値(mean):全データの値を合計してデータ数で割った値。年齢・FMA-UEスコア・10m歩行速度などの連続変数で頻用される
  • 標準偏差(standard deviation, SD):データが平均値からどの程度ばらついているかを示す指標。平均値とセットで「63.2 ± 12.4歳」のように表記される
  • 中央値(median):データを小さい順に並べたときの真ん中の値。データに極端な外れ値がある場合や、分布が左右非対称な場合に平均値より適している
  • 四分位範囲(interquartile range, IQR):データの下位25%地点(第1四分位)と上位25%地点(第3四分位)の差。中央値とセットで「FMA-UE 18 (IQR 12-26)」のように表記される

平均値と標準偏差はデータが正規分布に近いとき、中央値と四分位範囲はデータが歪んでいるときに使う、というのが基本的な使い分けです。

論文では「対象者の背景」を記述統計で示す

論文を読むと、Results欄の最初に「Table 1」として患者背景表が掲載されているのが一般的です。

この患者背景表に並ぶ年齢・性別比・発症からの期間・初期FMA-UEなどは、ほぼすべて記述統計です。

記述統計は「いま手元にある30人がどんな集団か」を伝えるためのものであり、そこから先の「世の中の脳卒中患者全体ではどうか」までは語りません。

障害領域の観察研究レビューでも、記述的研究疑問(記述統計を主体に使う研究)は、それ自体に特有の分析上の複雑さがあり、慎重な統計設計が必要だと指摘されています(Shepherd, Amor, & Moreno-Betancur, 2024)。

推測統計とは|標本から母集団を推し量る

推測統計(inferential statistics)は、目の前にあるデータ(標本)から、その背後にいる「世の中全体(母集団)」の性質を推し量るための統計です。

BJA Educationの統計学解説シリーズ第1弾では、「臨床研究で集められるデータはほぼ常に標本であり、研究者が知りたいのは母集団における真の値である」と明確に定義されています(Sidebotham & Hewson, 2025)。

例えば、ある脳卒中後の上肢リハビリRCTで30人を介入群、30人を対照群に割り付けてFMA-UEを比較したとします。

このとき、研究者が本当に知りたいのは「この60人の中での差」ではなく、「世の中のすべての脳卒中患者にこの介入をしたら、どれくらい効くか」という母集団レベルの効果です。

標本60人のデータから母集団の効果を推し量るための数学的な道具が、推測統計です。

推測統計の代表的な指標

PT・OTが論文でよく目にする推測統計は、以下の5種類です。

  • p値(p-value):「母集団に真の差がない」と仮定したとき、観察された差(あるいはそれ以上の差)が偶然得られる確率。p<0.05が慣習的な閾値
  • 95%信頼区間(95% confidence interval, 95%CI):同じ研究を繰り返したとき、その区間が母集団の真の値を含む割合が95%になる範囲
  • 効果量(effect size):群間差の大きさを標準化した指標。Cohen’s d、相対リスク(RR)、オッズ比(OR)など
  • t検定・分散分析(ANOVA)・χ²検定:群間差を検定する代表的な手法。検定結果はp値とともに報告される
  • 回帰係数とその95%CI:重回帰分析・ロジスティック回帰で得られる係数。アウトカムを予測する変数を特定する

推測統計には頻度論とベイズの2系統がある

推測統計には、大きく分けて頻度論的アプローチ(frequentist approach)とベイズ的アプローチ(Bayesian approach)の2系統があります。

PT・OTが日常的に読む論文のほとんどは頻度論ベースで、p値と95%CIが主役です。一方、ベイズ統計は事前知識を組み込んで「効果がある確率」を直接表現できる利点があり、近年は再解析や臨床判断支援の文脈で注目されています(Barlow & Sidebotham, 2025)。

本記事では、論文で圧倒的に多い頻度論ベースの推測統計を中心に解説します。

2つの統計を区別すべき3つの理由

記述統計と推測統計を混同したまま論文を読むと、研究結果の意味を取り違えるリスクがあります。PT・OTが特に注意したい混同パターンは、以下の3つです。

理由①:平均値だけで「介入の効果」を判断してしまう

論文のResults欄で「介入群はFMA-UE平均48点、対照群は平均42点だった」と書かれていると、「6点差ある=介入は効いた」と読みたくなります。

しかし、6点差はあくまで標本における記述統計の差であり、母集団に本当に差があるかは推測統計の結果(p値・95%CI)を見て初めて判断できます。

標本サイズが小さければ、偶然6点差が出ただけの可能性も十分あります。

理由②:p値だけで「介入効果なし」と切り捨ててしまう

逆に、p≥0.05だからといって「効果なし」と早とちりするのも危険です。

循環器領域のRCT 127件を分析した研究では、統計的に非有意(NSS)だった92件のうち、61%(56/92件)が点推定値または95%CIの下限値に臨床的に意味のある効果を含んでいたと報告されていますAllan et al, 2017)。

つまり、p値だけで切り捨てていた「効果なし」の研究の中に、臨床的には意味ある効果を持つ研究が大量に紛れ込んでいる可能性があるということです。

同様に、女性医療領域のRCT 150本をベイズ的に再解析した研究では、頻度論で「非有意」とされた102件のうち94件(92%)は「効果あり/なし」ではなく「不確実(inconclusive)」と分類されましたHemming et al, 2023)。

理由③:QI・症例集積を「推測統計」で評価しようとしてしまう

院内の質改善(quality improvement, QI)や、自施設の症例集積データに対して、いきなりt検定をかけて「p<0.05なら成功」と判定するのは適切ではありません。

看護領域のQI事例レポートでは、同じデータをt検定で分析するとp=0.075(非有意)だったが、SPCチャート(記述統計の可視化)で時系列推移を見るとシフトとトレンドが確認でき、臨床的に意味ある改善が示せたと報告されています(Reynolds & Waldrop, 2024)。

自施設のデータは「母集団からの標本」ではないため、推測統計を機械的に当てはめても意味ある結論は得られません。記述統計と可視化のほうが適していることが多い、という視点が必要です。

論文を読むときの実践チェックポイント

実際にPT・OTが論文を読むときに、記述統計と推測統計を見分けるためのチェックポイントを紹介します。

論文MethodsとResults欄での記述統計と推測統計の見分け方フロー

チェック①:Methods欄の「Statistical Analysis」を最初に読む

論文のMethods欄には「Statistical Analysis」というセクションがあり、ここに研究者が使った統計手法がすべて書かれています。

  • 「mean ± SD」「median (IQR)」「frequency (%)」と書かれていれば記述統計
  • 「t-test」「ANOVA」「chi-square test」「regression」「mixed-effects model」と書かれていれば推測統計

Methods欄を先に読むことで、後のResults欄に出てくる数字がどちらの統計か、迷わず判断できるようになります。

チェック②:Results欄の前半は記述統計、後半は推測統計

Results欄の構造は、ほとんどの論文で以下の順序になっています。

  1. Table 1(患者背景):記述統計(年齢・性別比・発症期間・初期重症度)
  2. Table 2以降(介入前後の比較):記述統計(mean ± SD)+推測統計(p値・95%CI・効果量)が混在
  3. 本文の解釈:主に推測統計の結果に基づいて記述される

Results欄を「前半は集団の説明、後半は介入効果の検証」と二段階で読むと、頭の中が整理しやすくなります。

チェック③:p値だけでなく95%CIと効果量も必ず確認する

p値は「差があるかないか」しか伝えてくれません。どのくらいの大きさの差なのか、その差の不確実性はどの程度かを伝えてくれるのは95%信頼区間と効果量です。

信頼区間の専門解説論文では、「p値は差の有無の二択しか提供しないが、信頼区間は効果の大きさと精度の両方を伝える」と整理されています(Sharma & Yadav, 2024)。

例えば「介入群と対照群のFMA-UE差は6.2点、95%CI 0.5〜11.9点、p=0.034」という結果なら、「差は確かにあるが、最小で0.5点、最大で11.9点と幅が大きい」と読むのが正しい解釈です。

BRAINでの統計の使い分け|臨床判断3例

BRAIN(株式会社BRAINが運営する脳卒中専門リハビリ施設)では、記述統計と推測統計を以下のように使い分けています。

事例①:RCTを参照して上肢介入の提示を判断する

担当患者さんに新しい上肢リハビリ介入を提案するとき、論文の「平均FMA-UE改善6点」だけを根拠にしません。

必ず95%CIの幅・効果量・対象集団の患者背景(記述統計)を併せて確認し、目の前の患者さんに当てはめてよい研究か、効果の不確実性はどの程度かを総合判断しています。

事例②:自施設の症例集積データはSPCチャートで可視化する

BRAINで治療した患者さんのFMA-UEやBarthel Indexの推移を院内で振り返るとき、いきなりt検定をかけることはしません。

BRAINの患者さんは「世の中の脳卒中患者全体からランダムサンプリングした集団」ではなく、選択的な利用者層なので、推測統計を機械的に当てはめても誤った結論しか出ません。

代わりに、個別症例の時系列推移を折れ線グラフ・SPCチャートで描き、記述統計と可視化でトレンドを把握する方法を採用しています。

事例③:患者さんへの効果説明では効果量より臨床的に意味ある差を優先する

患者さんやご家族にリハビリ効果を説明するとき、「p値0.03で有意でした」と伝えても伝わりません。

代わりに、「臨床的に意味ある最小変化量(MCID)と比べて、今の改善幅がどの位置にあるか」を、評価指標の生スコアで伝えます。

「FMA-UEで10点改善しました。先行研究で報告されているMCIDは6点なので、患者さんが感じる変化として十分意味ある改善です」と説明するほうが、家族の納得感が圧倒的に高いと感じています。

関連する記事として「患者さんにリハビリ効果を説明するときに知っておきたい2つの視点」「脳卒中後の歩行速度のMCIDについて簡単に解説 Part.1 〜MCIDの概要〜」も併せて参照してください。

よくある質問(FAQ)

Q1:記述統計と推測統計はどちらが「上」ですか?

上下関係はありません。役割が違うだけです。

記述統計は「目の前のデータを正しく要約する」役割、推測統計は「標本から母集団を推し量る」役割を担います。両方とも論文を読むときには欠かせません。

Q2:平均値と中央値はどちらを使うべきですか?

データの分布次第です。正規分布に近ければ平均値、外れ値があったり左右非対称なら中央値が適しています。

FMA-UEは床効果・天井効果があるため、重度群・軽度群では分布が歪みやすく、中央値とIQRで報告される論文も増えています。論文で中央値が使われている場合、その理由(分布の歪み・外れ値)を考えながら読むと理解が深まります。

Q3:p<0.05なら必ず「臨床的に意味ある」と判断していいですか?

いいえ。統計的有意性と臨床的有意性は別物です。

標本サイズが極端に大きい場合、ごくわずかな差でもp<0.05になります。一方で、臨床的に意味ある差(MCID以上)かどうかは、効果量と95%CIで判断します。p値・効果量・95%CI・MCIDを4点セットで見るのが、論文を正しく読む基本姿勢です。

Q4:自施設の患者データの分析にはどちらを使えばいいですか?

多くの場合、記述統計+可視化(折れ線グラフ・SPCチャート)で十分です。

自施設データは母集団からのランダムサンプルではないため、推測統計(t検定など)を機械的に当てはめても解釈が難しくなります。臨床疑問が「症例集積で何が起きているか」を可視化することなら記述統計、「介入Aと介入Bを比較したい」なら、そもそも研究デザインから設計し直す必要があります。

Q5:統計を体系的に学ぶのにおすすめの論文はありますか?

BJA Educationが2025〜2026年に連載している「Core concepts in statistics and research methods」シリーズ(全6本)が、臨床家向けに非常に読みやすく書かれています。

Part 1(推測統計の基礎・PMID: 40083963)から順に読むと、本記事で扱った内容をより深く理解できます。

本記事のまとめ

  • 記述統計は「目の前のデータをそのまま要約する」もので、平均・標準偏差・中央値・四分位範囲が代表的
  • 推測統計は「標本から母集団を推し量る」もので、p値・95%信頼区間・効果量が代表的
  • 論文を読むときはMethods欄の「Statistical Analysis」を先に確認し、Results欄を前半(記述統計)と後半(推測統計)に分けて読む
  • p値だけでなく95%CI・効果量・MCIDを4点セットで見ることで、論文結果を臨床判断に正しく翻訳できる

本記事の内容が、論文の統計を正しく読み解きたいセラピストの参考になれば幸いです。

参考文献

Sidebotham D, Hewson D. Core concepts in statistics and research methods. Part I: statistical inference. BJA Educ. 2025;25(1):29-37. PMID: 40083963

Hewson DW, Stuart B. Core concepts in statistics and research methods. Part 2: clinical research principles and observational studies. BJA Educ. 2025;25(4):146-154. PMID: 40161484

Barlow CJ, Sidebotham D. Core concepts in statistics and research methods. Part 3: essentials of Bayesian inference. BJA Educ. 2025;25(8):326-334. PMID: 40693122

Jones PM, Martin J. Core concepts in statistics and research methods. Part 4: null hypothesis significance testing. BJA Educ. 2026;26(1):10-19. PMID: 41737575

Doleman B, Hardman JG. Core concepts in statistics and research methods. Part 5: systematic review and meta-analysis. BJA Educ. 2026;26(2):63-73. PMID: 41626587

Bould MD, McIsaac DI. Core concepts in statistics and research methods. Part 6: Sample size calculations. BJA Educ. 2026;26(5):212-221. PMID: 42003955

Hess DR. Statistics for the Non-Statistician: How to Read the Respiratory Care Literature. Respir Care. 2024;69(4):500-515. PMID: 38538021

Shepherd DA, Amor DJ, Moreno-Betancur M. Statistical analysis of observational studies in disability research. Dev Med Child Neurol. 2024;66(11):1408-1418. PMID: 38721699

Allan GM, Finley CR, McCormack J, et al. Are potentially clinically meaningful benefits misinterpreted in cardiovascular randomized trials? A systematic examination of statistical significance, clinical significance, and authors’ conclusions. BMC Med. 2017;15(1):58. PMID: 28316281

Sharma PK, Yadav M. Confidence Interval: Advantages, Disadvantages and the Dilemma of Interpretation. Rev Recent Clin Trials. 2024;19(1):76-80. PMID: 38099533

Reynolds SS, Waldrop J. Misuse of the P Value: Using Quality Improvement Analyses to Identify Clinically Significant Improvements. Dimens Crit Care Nurs. 2024;43(2):96-101. PMID: 38271315

Hemming K, Melo P, Luo R, et al. A re-analysis of 150 women’s health trials to investigate how the Bayesian approach may offer a solution to the misinterpretation of statistical findings. BJOG. 2023;130(13):1629-1638. PMID: 37381115

BRAINアカデミー

エビデンスに基づく脳卒中リハビリテーションを体系的・網羅的に学ぶ、3ヶ月間のオンライン学習プログラムです。①動画教材 ②課題 ③フィードバックを通じて、EBMを身に付けましょう!
詳細はこちら

書籍|文献検索の超基本

「先輩に聞けばいい」から卒業しませんか?

本書は、PT・OT・STが最短で文献検索を身につけるための一冊です。172ページ+40本の動画で、PubMed検索からAI活用まで実践的に学べます。ChatGPT、Elicit、Semantic ScholarなどのAIツールを”なんとなく使う”のではなく、正しく臨床に活かす方法を体系的に解説。文献検索は、早く身につけた人が圧倒的に伸びます。エビデンスを自分で調べられるセラピストになりませんか?

詳細はこちら