統計の種類
医療統計学の臨床研究で使う統計には記述統計と推測統計がある。
記述統計=データの要約・事実の描写
推測統計=真の値の推定+検定
1、記述統計
記述統計はデータの特徴や傾向を把握するための記述統計法で、症例報告や院内データ分析など限られたでーた全体を整理・縮約する手法。現状(事実)を把握するために使う。一般性にはとぼしいが発見による仮説の提唱に応用できる。
例えば、C町で20位上の住人全員にコーヒーの摂取について調査したところ、次のような結果がでた。
コーヒーを毎日飲む | 700人 |
時々飲む | 1000人 |
全く飲まない | 300人 |
合計 | 2000人 |
この調査結果について、次のことが言える。
「C町の成人住人のうち35%がコーヒーを毎日飲み、50%が時々飲み、15%が全く飲まない。」
これは事実の描写である。ただし、あくまでもC町に関する事実であって、この結果が全国の値を反映しているかどうかは不明である。
2,推測統計
推測統計は、推定と検定によって一握りのデータから背後の普遍的な値を予測して仮説を検証する手法。実際の臨床研究では、全国・全世界の患者を調べるのは不可能なので、一部(標本)から全体を推測することになる。実際の研究データは事実だが、バイアスや偶然性による誤差が入り込んで真の値とは限らない。統計では標本データに基いて真の値を指定したり、信頼性を検定したりする。
推測統計=推定(真の値の予測)
+
検定 (推定値の検証)
①推定
我々が知りたいのは「真の値(普遍値)」だが、母集団(普遍)をすべて調査・研究をすることは、時間・労力・費用・倫理上不可能である。そこで、母集団から一部(標本)を抽出・選択し、その標本の「代表値(平均値・発症率など)」から、母集団の値(真の値)を縮約・予測する。これを推定という。
推定:標本の値から、母集団の値(真の値)を予測すること
例えば、「コーヒーを飲むと記憶力が上がる」という仮説を立てる。
この仮説が正しいかどうかを確かめるために、「コーヒーを飲む人のうちで記憶力が上がった人の人数」と、「コーヒー以外の飲み物を飲んで記憶力が上がった人の人数」とを比較する。前者が後者より多ければこの仮説は真実と考えられる。
しかし、この調査を世界や日本の全人口(母集団)について行うことは不可能である。そこで、調査対象を「C町の住人」などとして、そこから得たデータをもとに分析を行う。
記憶力アップ | アップなし | 全体 | % | |
コーヒー | 20 | 80 | 100 | 20÷100=20% |
コーヒ以外 | 10 | 90 | 100 | 10÷100=10% |
この結果から、次のことが言える。
「C町ではコーヒー嗜好者の記憶力アップは、非コーヒー嗜好者より高い。」
この記述が真実化どうかは、これだけではまだ判断できない。
②検定
C町のコーヒー嗜好者の記憶力アップが非嗜好者よりも高いからと言って、全国でも同じことが言えるとは限らない。C町のコーヒー嗜好者がたまたま記憶力がアップしただけかもしれない。
このように、標本(C町の住人)を選ぶ際の偶然性によって、データがばらつく可能性がある。そこで、偶然性による誤差に基いて、母集団における差や比の推定値の信頼性(再現性)を検証する作業を、検定と呼ぶ。
検定:標本の分析から導いた推定値が、母集団において確実かどうかを検証すること
検定の結果はP値(危険率)という数値で表す。結果の信頼性はP値が小さいほど高まる。通常の臨床では、P値が0.05未満であれば、偶然性による影響は問題にならないほど小さいと判断する。