偏相関係数と擬似相関
小学生における体重
と走る速さ
についてデータを集めたところ、図1のような散布図を得たとする。

図1
図1の散布図を学年を区別して、1年生は赤、2年生は茶色、3年生は緑、4年生は青、5年生は紫、6年生は黒で描くと図2のようになる。

図2
図1の散布図に見られる体重と速さの間の正の相関は、学年(年齢
)の影響によるものがかなりあることが図2から予想される。体重
と速さ
の関係を年齢
の影響を除いて調べるために、次の回帰式によって体重
および速さ
における年齢
の効果を取り出す。
![]()
(1)
![]()
式(1)における
および
は、
および
から
の影響を回帰式によって除いた残りと考えられる。このとき、
と
の相関係数
(記号
によって
および
から
の影響を除いたことを表している)は、回帰式によって
の影響を除いたときの
と
の間の相関を表していると考え、偏相関係数と呼ぶ。すなわち、偏相関係数とは、第3の変数の回帰式によって除いたときの相関係数である。
と
の相関係数が
、
と
の相関係数が
、
と
の相関係数が
のとき、
と
から
の影響を取り除いたときの偏相関係数
は次式で算出することができる。
(2) 
いま、体重
、速さ
、年齢
の間の相関係数が、
、
、![]()
であったとき、式(2)によって偏相関係数を求めると
![]()
となる。すなわち、上の例の場合、年齢の影響を除くと、体重と速さの相関は負となる。
上の例のように、第3の変数
の影響を受けて現れる
と
の間の相関を擬似相関あるいは見かけの相関(spurious correlation)という。
3変数の間の相関係数から、偏相関係数を求めるプログラムをここをクリックして表示されるページに用意した。
統計学の入門書として<岡本安晴「データ分析のための統計学入門――統計学の考え方――」おうふう、2009>を用意している。