Warning: Use of undefined constant analytics_location - assumed 'analytics_location' (this will throw an Error in a future version of PHP) in /home/iryoutoukei/www/wp/wp-content/themes/msx-02-170929/functions/adminpages.php on line 980

Warning: Use of undefined constant analytics_location - assumed 'analytics_location' (this will throw an Error in a future version of PHP) in /home/iryoutoukei/www/wp/wp-content/themes/msx-02-170929/functions/adminpages.php on line 980
  1. ホーム
  2. 医療統計学
  3. 医療統計学の基礎
  4. ≫保険医療領域における主な統計方法

保険医療領域における主な統計方法

説明変数・結果変数と因果関係について

説明変数・結果変数とは

保健医療領域のエビデンスを読み解くために必要な統計手法について解説していく。
保険医療の領域で取り扱う統計解析手法は下記の表にまとめてみた。

この表は、統計学の主な目的の1つである、「何らかの項目の間での関連性を見ること」のために用いられてる手法をまとめたものだが、この表の中の「説明変数」と「結果変数」という言葉について説明をする。
説明変数と結果変数とは「説明変数を使って結果変数を予測する」あるいは「結果変数の違いについて説明変数で説明する」という意味だ。
例1:男女間で身長が異なるかどうか?
この場合は、身長が結果変数(連続)で、性別が説明変数(二値)。

例2:血圧の高さによって脳卒中の発生割合が異なるかどうかを解析したい。
血圧が説明変数(連続)、脳卒中の発生有無が結果変数(二値)。

通常、結果変数は1つの変数しか使わないが、説明変数については同時に複数用いることもある。
基本的にはどんな手法においても、結果変数で表される「興味ある結果」に対して、説明変数が「原因として考えられるもの」となっているが、注意しなければならないのは、「どのように取られたデータなのか」という状況によっては、有意な結果が得られても、「本当にその説明変数が結果変数の違いを説明する原因といえるかどうか」という因果関係についてははっきりしないということだ。

二値データ・順序データ・名義データを説明変数とする手法

上記例1で、男女それぞれのグループの間で慎重という連続データに違いがあるか、という視点で用いられてる代表値は、それぞれのグループ内の身長の平均値の差であると説明したが、これは「性別」という二値の説明変数によって、身長という連続的な結果変数の違いがどのように表されるか、という解析をしていたのだといこうことができる。

例:二値データと連続データの関連性

これがもし仮に血液型に基づいてグループ分けをした結果、それぞれのグループ間での平均身長が違うかどうかを示したのであれば、これも同様に血液型という名義データによって、身長の違いを説明しようとしたのだということができるし、順序データによってグループ分けをした場合にも同様のことが言える。
例:名義データと連続データの関係性

相関係数

相関係数:(Correlation coefficient)
2つの確率変数の間にある線形な関係の強弱を測る指標である。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという。

統計学においては、慣例的に説明変数を横軸に、結果変数を縦軸にして表すことが作法です。
相関係数は上記の図ように表される。どんな状況でも必ず-1~1お間の値をとるようになっていて、直感的に相関の強さを判断しやすいものになっている。
値の解釈としては、相関係数がプラスというのは、説明変数の値が大きくなると結果変数も大きくなるという正の相関が見られるということであり、マイナスというのは、説明変数の値が大きくなると逆に結果変数は小さくなるという負の相関が見られるということが言える。
また、相関係数が1というのは、この相関が完全に直線的な比例関係になっているということであり、0.7より大きいと「ある程度強めの相関」、0.3あるいは0.4より大きければ「弱めではあるが相関が見られる」と判断する。
相関係数が0というのは「全く相関が見られず、バラバラに散らばっている状態」だと言える。
この相関係数についても「相関が0かどうか」という帰無仮説に従って検定を行うことができ、データから推定された相関係数だけでなく、その検定した結果のp値を合わせて表示していることもある。この場合もpが0.05より小さければ「相関が0とは考えにくい」と帰無仮説が棄却されたと考える。

回帰分析
相関係数を用いれば相関の強さがわかる。そして相関0と言えるかどうかについても検定することができる。しかし、実際のところ説明変数と結果変数の関係性についてはそれ以上のことはわからない。

ロジスティック回帰
ロジスティック回帰(Logistic regression)は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。1958年に David Cox が発表した。確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる。
モデルは同じく1958年に発表された単純パーセプトロンと等価であるが、scikit-learn などでは、パラメータを決める最適化問題で確率的勾配降下法を使用する物をパーセプトロンと呼び、座標降下法や準ニュートン法などを使用する物をロジスティック回帰と呼んでいる。
解説を読むと頭が痛くなるような文言が並ぶが、簡単に説明すると、回帰係数から算出されたオッズ比の推定値と信頼区間、そしてそのP値だけに着目すれば、どのような説明変数どうのように結果変数と関連しているかすぐに分かる。二値エータや順序データ、名義データが説明変数であれば、リファレンスとなる項目と比べそこに示されたオッズ比倍だけ結果変数が1になりやすいということになるし、説明変数が連続データや順序データであれば、説明変数が1増えるごとにオッズ比だけ結果変数が1になりやすいということを示しているのだと考えれば良いだけだ。あとは、そのオッズ比の信頼区間とP値だけに注意を払えば難しいことはない。

スポンサーリンク

この記事が参考になりましたら、シェアをお願いします。


Warning: Use of undefined constant analytics_location - assumed 'analytics_location' (this will throw an Error in a future version of PHP) in /home/iryoutoukei/www/wp/wp-content/themes/msx-02-170929/functions/adminpages.php on line 984

Warning: Use of undefined constant analytics_location - assumed 'analytics_location' (this will throw an Error in a future version of PHP) in /home/iryoutoukei/www/wp/wp-content/themes/msx-02-170929/functions/adminpages.php on line 984