回帰直線と決定係数
データ、
、・・・、
、・・・、
が与えられたとき、下図のような散布図(赤い点がデータ
を表している)において、できるだけ各データの点の近くを通る直線
を引くことを考える。

点
の
座標は
なので、直線
上の値は
![]()
で与えられる。この値と
座標の値
との差は
(1) ![]()
となる。直線が各点の近くを通るということを、式(1)の値が点全体にわたって小さいことと考えて、式(1)で表される直線とデータの値
との差の2乗和で直線がどの程度データの近くを通っているかを表す。
(2) 
式(2)の値は、いろいろな直線に応じて変わるが、式(2)の値を最小にする直線を与える
と
の値は次式で与えられることが知られている。

(3)

式(3)で与えられる
と
の値で決まる直線を、与えられたデータ
に対する
の
への回帰直線という。
式(3)で与えられる
の値は、次式のように表すことができる。

ここで、
はデータ
に対する相関係数、
と
は
と
の標準偏差である。したがって、データの標準偏差が1のときは、回帰直線の傾き
は相関係数
に等しい。また、標準偏差は正の値(0となる特殊な場合は除いて考える)であるので、傾き
の符号と相関係数
の符号は一致する。
回帰直線による誤差(残差と呼ばれている)の2乗の平均値

と
の分散
との比は相関係数と次式の関係にある。
(4) 
上式の値
は回帰直線では予測できない(説明できない)
の分散
の割合と解釈できるが、非決定係数と呼ばれている。これに対して、回帰直線による予測値
の分散の
の分散
に対する比は、
の平均が
の平均
に等しいことを用いて、次式で与えることができ、この値は相関係数
の2乗に等しい。
(5) 
上式の値
は決定係数と呼ばれている。
相関係数
の絶対値が1に近づくと式(4)で与えられる非決定係数は0に近づく。すなわち、残差の分散が小さくなり、データの点は回帰直線に沿って並ぶようになる。相関係数
の絶対値が0に近づくと式(4)で与えられる非決定係数は1に近づく。すなわち、残差の分散がデータ
の分散に等しくなり、回帰直線で説明できる分散の割合(決定係数、式(5)の値)が0に近づく。
散布図をマウスのクリックで作成した散布図から相関係数と回帰直線を求めるプログラムをここをクリックして表示されるページに用意した。データを入力して相関係数、回帰直線および決定係数を求めるプログラムはここをクリックして表示されるページに用意した。
なお、統計学の入門書
岡本安晴「データ分析のための統計学入門――統計学の考え方――」2009、おうふう
統計学あるいはデータ分析の勉強に必要な数学の入門書
岡本安晴「統計学を学ぶための数学入門[上]」2008、培風館
岡本安晴「統計学を学ぶための数学入門[下]」2009、培風館
を上梓した。参考になれば幸いである。
参考文献
日本数学会編集「岩波数学辞典、第3版」、岩波書店、1988、第4刷.