Up

回帰直線と決定係数

 

データ、、・・・、、・・・、が与えられたとき、下図のような散布図(赤い点がデータを表している)において、できるだけ各データの点の近くを通る直線を引くことを考える。

 

座標はなので、直線上の値は

 

 

で与えられる。この値と座標の値との差は

 

(1)      

 

となる。直線が各点の近くを通るということを、式(1)の値が点全体にわたって小さいことと考えて、式(1)で表される直線とデータの値との差の2乗和で直線がどの程度データの近くを通っているかを表す。

 

(2)      

 

式(2)の値は、いろいろな直線に応じて変わるが、式(2)の値を最小にする直線を与えるの値は次式で与えられることが知られている。

 


(3)


式(3)で与えられるの値で決まる直線を、与えられたデータに対するへの回帰直線という。

式(3)で与えられるの値は、次式のように表すことができる。

 

 

ここで、はデータに対する相関係数、の標準偏差である。したがって、データの標準偏差が1のときは、回帰直線の傾きは相関係数に等しい。また、標準偏差は正の値(0となる特殊な場合は除いて考える)であるので、傾きの符号と相関係数の符号は一致する。

回帰直線による誤差(残差と呼ばれている)の2乗の平均値

 

 

の分散との比は相関係数と次式の関係にある。

 

(4)    

 

上式の値は回帰直線では予測できない(説明できない)の分散の割合と解釈できるが、非決定係数と呼ばれている。これに対して、回帰直線による予測値の分散のの分散に対する比は、の平均がの平均に等しいことを用いて、次式で与えることができ、この値は相関係数の2乗に等しい。

 

(5)    

 

上式の値は決定係数と呼ばれている。

相関係数の絶対値が1に近づくと式(4)で与えられる非決定係数は0に近づく。すなわち、残差の分散が小さくなり、データの点は回帰直線に沿って並ぶようになる。相関係数の絶対値が0に近づくと式(4)で与えられる非決定係数は1に近づく。すなわち、残差の分散がデータの分散に等しくなり、回帰直線で説明できる分散の割合(決定係数、式(5)の値)が0に近づく。

 散布図をマウスのクリックで作成した散布図から相関係数と回帰直線を求めるプログラムをここをクリックして表示されるページに用意した。データを入力して相関係数、回帰直線および決定係数を求めるプログラムはここをクリックして表示されるページに用意した。

 

 なお、統計学の入門書

岡本安晴「データ分析統計学入門――統計学考え方――2009、おうふう

統計学あるいはデータ分析の勉強に必要な数学の入門書

岡本安晴「統計学を学ぶための数学入門[上]」2008、培風館

岡本安晴「統計学を学ぶための数学入門[下]」2009、培風館

を上梓した。参考になれば幸いである。

 

参考文献

 

日本数学会編集「岩波数学辞典、第3版」、岩波書店、1988、第4刷.

 

Up