Up

偏相関係数と擬似相関

 

小学生における体重と走る速さについてデータを集めたところ、図1のような散布図を得たとする。

無題

図1

 

図1の散布図を学年を区別して、1年生は赤、2年生は茶色、3年生は緑、4年生は青、5年生は紫、6年生は黒で描くと図2のようになる。

無題

図2

 

図1の散布図に見られる体重と速さの間の正の相関は、学年(年齢)の影響によるものがかなりあることが図2から予想される。体重と速さの関係を年齢の影響を除いて調べるために、次の回帰式によって体重および速さにおける年齢の効果を取り出す。

 

(1)

 

式(1)におけるおよびは、およびからの影響を回帰式によって除いた残りと考えられる。このとき、の相関係数(記号によっておよびからの影響を除いたことを表している)は、回帰式によっての影響を除いたときのの間の相関を表していると考え、偏相関係数と呼ぶ。すなわち、偏相関係数とは、第3の変数の回帰式によって除いたときの相関係数である。

の相関係数がの相関係数がの相関係数がのとき、からの影響を取り除いたときの偏相関係数は次式で算出することができる。

 

(2)         

 

いま、体重、速さ、年齢の間の相関係数が、

 

 

であったとき、式(2)によって偏相関係数を求めると

 

 

となる。すなわち、上の例の場合、年齢の影響を除くと、体重と速さの相関は負となる。

上の例のように、第3の変数の影響を受けて現れるの間の相関を擬似相関あるいは見かけの相関(spurious correlation)という。

 

3変数の間の相関係数から、偏相関係数を求めるプログラムをここをクリックして表示されるページに用意した。

 

統計学の入門書として<岡本安晴「データ分析統計学入門――統計学考え方――おうふう、2009>を用意している。

 

 

Up