Up

データの分布の指標

1変量の場合

 

平均値

 

 例えば、3個の数値、5,6,7、があるとき、これらの数値を1つの数値で代表させることを考える。いま、この3個の数値を代表する値をで表すとき、3個の数値、5,6,3、は代表値が3つあることであると考えられる。すなわち、次式が成り立つと考えられる。

 

 

上式より次式が導かれる。

 

           (1)

 

 式(1)の値は、3個の数値、5,6,7、の平均値(あるいは平均)と呼ばれている。

無題

3個の数値、5,6,7、をならして、数値の3個分と考える。

 

 一般に、個の数値、、・・・、、があるとき、それらを1つの数値で表して、個集まったもので表すと、次式が成り立つと考えられる。

 

 

したがって、は次式で与えられる。

 

          (2)

 

式(2)で与えられる値は、個の数値、、・・・、、の平均値(あるいは平均)と呼ばれている。式(2)における記号は、からまでの和を表すものである。詳しくは、ここをクリックして表示されるページを参照のこと。

無題

平均値は、データ全体の位置を表すもので、データの分布をヒストグラムで表示したとき、その重心の位置を指し示す。

平均値などの1変量統計量の算出およびヒストグラムを描くプログラムP1VarDescri.exeを用意した。ここをクリックして表示されるダイアログボックスで「開く」あるいは「実行」などを選ぶとダウンロード・実行される。プログラムの使い方の説明はここをクリックして表示されるページにある。

 

 

分散と標準偏差

 

データ全体の散らばり具合を表すものが、分散あるいは標準偏差である。データの散らばり具合を、平均値との差で表すと、以下のように考えられる。

いま、3個のデータ、1,3,5、があるとする。これらの平均は

 

 

である。この平均からの各データ、1,3,5、の差は、

 

、 、 

 

平均からの差を表すこれらの数値を代表する値でデータの散らばり具合を表すことが考えられるが、平均からの差をそのまま平均すると0になるので、それらの2乗の平均を考える。すなわち、次の値でデータの平均を中心とする散らばり具合を表す。

 

 

上の値を分散という。

 分散は2乗の平均なので、例えば、データとしてある学部の学生の体重をとったとき、平均値の単位はデータと同じ例えばであるが、分散の単位はとなる。学部別に体重の平均値を表す棒グラフを描いたとき、平均の単位はであるので、同じグラフ内に学部内の体重のデータの散らばり具合を表すを単位とする分散を書き込むことができない。分散の平方根をとると単位がに戻るので、平均を描いたグラフ内その値を書き込むことができる。この分散の平方根をとったものは標準偏差と呼ばれている。上の例の場合、標準偏差は次式で与えられる。

 

 

一般に、個のデータ、、・・・、、があるときの分散は次式で与えられる。

 

 

ここで、は平均値である。

 

 

標準偏差は分散の平方根として与えられる。

 

 

標準偏差は次図のように、ヒストグラムにおけるデータの散らばりの幅の指標である。

無題

 

 上で説明した分散では、データと平均との差の2乗の和をデータ数で割っている。これをではなく、で割る次式の場合がある。

 

 

上式で与えられる値は不偏分散と呼ばれている。分散は平均値を中心とするデータの散らばり具合を表す1つの指標であるが、不偏分散はデータの背後に設定されている統計モデルのパラメタの推定値である。

 

 

データの変換と平均値・分散

 

定数を加えた場合:

 

データに定数を足したり引いたりしたとき、あるいはデータを定数倍したときの平均値、分散の変化について説明する。

平均値はデータ全体の位置を示すものなので、定数をデータに加えると平均値も定数分だけ変化する。例えば、3個の数値、1,3,5の平均値

 

 

であり、各数値に10を加えた、11、13、15、の平均

 

 

となって、もとの平均3よりデータに加えた数10だけ大きくなっている。

 データから定数を引く場合も同様である。データから引いた数だけ平均値も小さくなる。

 分散、および標準偏差は、データの平均値を中心とする散らばり具合を表すものなので、各データに同じ値を加えたり引いたりしても分散および標準偏差は変化しない。例えば、3個の数値、1,3,5、の分散は次式で与えられる。

 

 

各数値に10を加えた、11、13、15、の分散は次式で与えられ、

 

 

元のデータの分散と同じである。

 

 

定数を掛けた場合:

 

平均値はデータ全体の位置を示すものなので、定数をデータに掛けると平均値も定数倍だけ変化する。例えば、3個の数値、1,3,5の平均値

 

 

であり、各数値に10を掛けた、10、30、50、の平均

 

 

となって、もとの平均3よりデータに加えた数10倍だけ大きくなっている。

 データを定数で割る場合も同様である。データを割った数だけ平均値も小さくなる。

 分散、および標準偏差は、データの平均値を中心とする散らばり具合を表すものなので、各データに同じ値を掛けるとそれに応じて分散および標準偏差も変化する。例えば、3個の数値、1,3,5、の分散は次式で与えられる。

 

 

各数値に10を掛けた、10、30、50、の分散は次式で与えられ、

 

 

元のデータの分散の100倍になっている。したがって、標準偏差は10倍になる。

 

 

 割り算は、逆数を掛けると考えて、分散の変化がわかる。

 

 上で具体的に考えたことを、一般に、個のデータ、、・・・、、に対する変換

 

 

および

 

 

について考える。

 の平均および分散をおよびで、の平均および分散をおよびで、の平均および分散をおよびで表す。このとき、以下の関係が成り立つ。

 

 

これらの性質を利用したデータの変換として標準得点とか偏差値がある。これらは、ここをクリックして表示されるページで説明する。

 

統計学の入門書として<岡本安晴「データ分析統計学入門――統計学考え方――おうふう、2009>を用意している。

 

 

Up