データの分布の指標
1変量の場合
平均値
例えば、3個の数値、5,6,7、があるとき、これらの数値を1つの数値で代表させることを考える。いま、この3個の数値を代表する値を
で表すとき、3個の数値、5,6,3、は代表値
が3つあることであると考えられる。すなわち、次式が成り立つと考えられる。
![]()
上式より次式が導かれる。
![]()
(1)
式(1)の値
は、3個の数値、5,6,7、の平均値(あるいは平均)と呼ばれている。

3個の数値、5,6,7、をならして、数値
の3個分と考える。
一般に、
個の数値、
、・・・、
、があるとき、それらを1つの数値
で表して、
が
個集まったもので表すと、次式が成り立つと考えられる。
![]()
したがって、
は次式で与えられる。
(2)
式(2)で与えられる値
は、
個の数値、
、・・・、
、の平均値(あるいは平均)と呼ばれている。式(2)における記号
は、
から
までの和を表すものである。詳しくは、ここをクリックして表示されるページを参照のこと。

平均値は、データ全体の位置を表すもので、データの分布をヒストグラムで表示したとき、その重心の位置を指し示す。
平均値などの1変量統計量の算出およびヒストグラムを描くプログラムP1VarDescri.exeを用意した。ここをクリックして表示されるダイアログボックスで「開く」あるいは「実行」などを選ぶとダウンロード・実行される。プログラムの使い方の説明はここをクリックして表示されるページにある。
分散と標準偏差
データ全体の散らばり具合を表すものが、分散あるいは標準偏差である。データの散らばり具合を、平均値との差で表すと、以下のように考えられる。
いま、3個のデータ、1,3,5、があるとする。これらの平均は

である。この平均からの各データ、1,3,5、の差は、
、
、 ![]()
平均からの差を表すこれらの数値を代表する値でデータの散らばり具合を表すことが考えられるが、平均からの差をそのまま平均すると0になるので、それらの2乗の平均を考える。すなわち、次の値
でデータの平均を中心とする散らばり具合を表す。

上の値
を分散という。
分散は2乗の平均なので、例えば、データとしてある学部の学生の体重をとったとき、平均値の単位はデータと同じ例えば
であるが、分散の単位は
となる。学部別に体重の平均値を表す棒グラフを描いたとき、平均の単位は
であるので、同じグラフ内に学部内の体重のデータの散らばり具合を表す
を単位とする分散を書き込むことができない。分散の平方根をとると単位が
に戻るので、平均を描いたグラフ内その値を書き込むことができる。この分散
の平方根をとったもの
は標準偏差と呼ばれている。上の例の場合、標準偏差は次式で与えられる。

一般に、
個のデータ、
、・・・、
、があるときの分散
は次式で与えられる。

ここで、
は平均値である。

標準偏差
は分散の平方根として与えられる。

標準偏差は次図のように、ヒストグラムにおけるデータの散らばりの幅の指標である。

上で説明した分散では、データと平均との差の2乗の和をデータ数
で割っている。これを
ではなく、
で割る次式の場合がある。

上式で与えられる値
は不偏分散と呼ばれている。分散
は平均値を中心とするデータの散らばり具合を表す1つの指標であるが、不偏分散はデータの背後に設定されている統計モデルのパラメタの推定値である。
データの変換と平均値・分散
定数を加えた場合:
データに定数を足したり引いたりしたとき、あるいはデータを定数倍したときの平均値、分散の変化について説明する。
平均値はデータ全体の位置を示すものなので、定数をデータに加えると平均値も定数分だけ変化する。例えば、3個の数値、1,3,5の平均値
は

であり、各数値に10を加えた、11、13、15、の平均
は

となって、もとの平均3よりデータに加えた数10だけ大きくなっている。
データから定数を引く場合も同様である。データから引いた数だけ平均値も小さくなる。
分散、および標準偏差は、データの平均値を中心とする散らばり具合を表すものなので、各データに同じ値を加えたり引いたりしても分散および標準偏差は変化しない。例えば、3個の数値、1,3,5、の分散
は次式で与えられる。

各数値に10を加えた、11、13、15、の分散
は次式で与えられ、

元のデータの分散
と同じである。
定数を掛けた場合:
平均値はデータ全体の位置を示すものなので、定数をデータに掛けると平均値も定数倍だけ変化する。例えば、3個の数値、1,3,5の平均値
は

であり、各数値に10を掛けた、10、30、50、の平均
は

となって、もとの平均3よりデータに加えた数10倍だけ大きくなっている。
データを定数で割る場合も同様である。データを割った数だけ平均値も小さくなる。
分散、および標準偏差は、データの平均値を中心とする散らばり具合を表すものなので、各データに同じ値を掛けるとそれに応じて分散および標準偏差も変化する。例えば、3個の数値、1,3,5、の分散
は次式で与えられる。

各数値に10を掛けた、10、30、50、の分散
は次式で与えられ、

元のデータの分散
の100倍になっている。したがって、標準偏差は10倍になる。
![]()
割り算は、逆数を掛けると考えて、分散の変化がわかる。
上で具体的に考えたことを、一般に、
個のデータ、
、・・・、
、に対する変換
![]()
および
![]()
について考える。
の平均および分散を
および
で、
の平均および分散を
および
で、
の平均および分散を
および
で表す。このとき、以下の関係が成り立つ。






これらの性質を利用したデータの変換として標準得点とか偏差値がある。これらは、ここをクリックして表示されるページで説明する。
統計学の入門書として<岡本安晴「データ分析のための統計学入門――統計学の考え方――」おうふう、2009>を用意している。