Up

共分散と相関係数

 

本ページの改訂版を

岡本安晴「データ分析のための統計学入門」、おうふう、2009

に用意した。

統計学入門レベルの学習に必要な数学の解説書として

岡本安晴「統計学を学ぶための数学入門[]2008、培風館

を上梓した。

 

 子供の年齢とともに体重は増え、50mを走るのに要する時間は短くなる。このような2つの変数(変量ともいう)の関係、年齢と体重、あるいは年齢と50m走の時間、を表す指標として共分散とか相関係数がある。まず、共分散について説明する。

 いま、2つの変数の組のデータとして、(,1, 3)(2, 4)(3, 5)(4, 6)(5, 7)の5組があるとする。これらのデータを変数を横軸、変数を縦軸にとって点として表すと図1のようになる。

図1 散布図の例−その1

 

図1のような図は散布図という。この散布図に表されているように、との間には一方が増加すると他方も増加するという関係が明瞭に認められる。番目の組をで表し、の平均値をそれぞれで表すと、図1の関係はのときはであり、のときはであるという関係になっていることがわかる。すなわち、常にそれらの積は正である。したがって、これらの積の和は正の値であり、それをデータの組数で割った平均値も正である。このことを計算によって確かめたものを表1に示す。

 

               

  1    3   −2     −2        +4

  2    4   −1     −1        +1

  3    5    0      0         0

  4    6   +1     +1        +1

  5    7   +2     +2        +4

                   

                        

 

表1 が増加するときも増加する場合。

 

 次に、2つの変数の組のデータとして、(,1, 7)(2, 6)(3, 5)(4, 4)(5, 3)の5組の場合について考える。これらのデータの散布図を描くと図2のようになる。

図2 散布図の例−その2

 

図2の散布図の場合は、との間には一方が増加すると他方は減少するという関係が明瞭に認められる。番目の組をで表し、の平均値をそれぞれで表すと、図2の関係はのときはであり、のときはであるという関係になっていることがわかる。すなわち、常にそれらの積は負である。したがって、これらの積の和は負の値であり、それをデータの組数で割った平均値も負である。このことを計算によって確かめたものを表2に示す。

 

               

  1    7   −2     +2        −4

  2    6   −1     +1        −1

  3    5    0      0         0

  4    4   +1     −1        −1

  5    3   +2     −2        −4

                   

                        

 

表2 が増加するときは減少する場合。

 

 次に、2つの変数の組のデータとして、(2, 4)(2, 6)(3, 5)(4, 4)(4, 6)の5組の場合について考える。これらのデータの散布図を描くと図3のようになる。

図3 散布図の例−その3

 

図3の散布図の場合は、との間には一方が増加したとき他方は増加する場合もあり減少する場合もある。また、の一方が減少したときも他方は増加する場合もあり減少する場合もある。すなわち、2変数の間には関係が認められない。番目の組をで表し、の平均値をそれぞれで表すと、図3の関係は、のときであったりであったりしている。のときも同様にであったりであったりである。すなわち、それらの積は正であったり、負であったりである。したがって、これらの積の和は正負の値が打ち消し合って0となり、それをデータの組数で割った平均値も0である。このことを計算によって確かめたものを表3に示す。

 

               

  2    4   −1     −1        +1

  2    6   −1     +1        −1

  3    5    0      0         0

  4    4   +1     −1        −1

  4    6   +2     +1        +1

                    

                         

 

表3 の間に関係がない場合。

 

 上のことから、の平均値で2変数との関係の様子が表されることが期待される。この平均値

は共分散と呼ばれている。

 共分散には、同じ2変数間であっても単位を変えると共分散の値も変わるという性質がある。例えば、身長と体重がmとKgを単位として測定されていたとき、これらの値をcmとgを単位とするものに改めると、身長の方は数値が100倍、体重の方は数値が1000倍になる。この数値が定数倍されたときの効果を見るために、いま、表1のデータの数値をすべて10倍にした表4のデータについて見てみる。

 

               

 10   30   −20   −20       +400

 20   40   −10   −10       +100

 30   50     0     0          0

 40   60   +10   +10       +100

 50   70   +20   +20       +400

                 

                      

 

表4 表1のデータにおいての値を10倍にした効果。

 

の値を10倍にすると共分散は200と表1の場合の100倍になっている。すなわち、共分散の値は、2変数の間の関係の様子だけではなく、それぞれの変数の単位にも依存している。2変数の間の関係だけによって決まる値を求めるために、各変数の単位を分散が1となるものに調整して共分散を算出することが考えられる。分散が1となる単位を用いるのは、統計学における考え方である。さらに、共分散の値は各変数の原点のとり方に影響されないので、平均値が0となるものを用いる。すなわち、平均が0、分散が1となるように変換した値(標準得点あるいはz得点と呼ばれている)を用いて共分散を算出する。標準得点の共分散は相関係数と呼ばれている。2変数およびの標準得点およびは次式で与えられる。

 および 

ここで、およびおよびの標準偏差で次式で与えられるものである。

 および 

したがって、相関係数は次式で与えられる。

上式は次のように変形することも出来る。


この相関係数は、Pearsonの積率相関係数と呼ばれることもある。

 この相関係数は次式の性質があるが、詳しくはここをクリックして表示されるページで説明する。

のときは、データの組を表す点は右上がりの直線状に載っている。のときは、点は右下がりの直線状に載っている。のときは、データの組を表す点の分布に直線的な関係は認められない。のときは、点は右上がりの直線の周りに分布していて、の値が1に近いほど分布は全体として直線の近くに集まった細長い楕円状となる。のときは、点は右下がりの直線の周りに分布していて、の値がに近いほど分布は全体として直線の近くに集まった楕円状となる。

 分布の状態と相関係数の関係をビジュアルに調べるプログラムがここをクリックして表示されるページに用意されている。このページでは、下図のように散布図をマウスのクリックで作成し、それに対して相関係数を求めるプログラムを楽しむことができる。

 

相関係数を求めるプログラムは、ここをクリックして表示されるページに用意されている。

Visual C++簡単種々統計プログラム例も用意した。

 

Up