平均の差の検定:条件間で独立なデータの場合
A市の中学3年生とB市の中学3年生の数学の学力に差があるかどうかを調べるとする。この調査のためにある人Xが、A市から3人(実際の調査ではもっと多数のデータが収集されるが、説明の都合上少人数のデータで説明する)、B市から3人(A市のデータ数とB市のデータ数が同じである必要はない)のデータを採ったとする。このとき、A市の3人の得点は、80点、35点、55点であり、B市の3人の得点は、75点、60点、45点であったとする。A市の得点の平均170/3点は、B市の得点の平均180/3点より低い。このデータに対しては、A市の平均点の方がB市の平均点より低いといえる。
別の人Yが、Xのデータとは別に、それぞれA市から3人、B市から3人のデータを採ったところ、A市のデータは、85点、60点、45点であり、B市のデータは70点、65点、40点であったとする。Yのデータでは、A市の平均点190/3点は、B市の平均点175/3点より高い。
このように、データを採って比較したとき、データの数値としては、どちらの平均値が高いかは計算によって確定するが、どちらが高いかという結果はデータを採るごとに変わる可能性がある。上のA市とB市の比較の場合、データから計算された平均値そのものより、データから推測されるA市の中学生一般の学力とB市の中学生一般の学力の比較に興味があると考えられる。このようなときは、A市の中学生の学力の分布を表す統計学的モデルとB市の中学生の学力の分布を表す統計学的モデルを設定して、データに基づいてそれらのモデルの比較を行うという方法がとられる。このときよく用いられるモデルが正規分布である。正規分布はその値の可能性として無限個のものがあるが、A市あるいはB市の中学生は有限の人数である。しかし、人数が十分に多いときは正規分布で表しても問題がないと考えられる。
上の例は、多数の値の分布を値が連続量である正規分布で近似的に表す場合である。もちろん、有限個の値、あるいは整数値のように離散的な値をとる確率モデルを設定した検定もあるが、これらはノンパラメトリック検定として分類されているもので、ここで説明する正規分布を用いたパラメトリック検定とは区別されるものである。多数の値の分布を連続量の分布で近似する場合に対して、例えば、音に対する反応時間と光に対する反応時間の比較を行う場合は、反応時間の分布は連続量の分布となっている(データとしては、測定器の測定値は有限個の可能性しかないが)。反応時間という理論的には無限の可能性の値をとる連続量であり、それを連続量の確率分布モデルで表す。そして、測定された反応時間というデータから設定された確率分布モデルについての検定を行う。ただ、反応時間の場合は、正規分布のように左右対称の分布ではないので、データ値を適当に変換して正規分布になるようにすることがある。どちらの反応時間が速いかという関係は、変換後の分布間の関係に移されれて、元の反応時間の分布の比較が変換後の分布の比較という形で行われる。
独立な2つの条件間での平均値の比較を以下のような考え方で行う方法はt検定と呼ばれている。2つの条件、上の例では、A市の中学生とB市の中学生、あるいは反応時間の例では音と光、における値の分布を図1のように正規分布で表す。2つの条件の分布の1つを
の分布、他の1つを
の分布として表している。

図1 統計モデル、データ、および検定・推定
これらの分布は正規分布という分布を用いるが、正規分布は図1に示されているように釣鐘型の分布であり、その数式による表現はここをクリックして表示されるページで説明する。
2つの条件から収集されたデータを、それぞれ
の分布からのデータが
個であるとして
、・・・、
で表し、
の分布からのデータが
個であるとして
、・・・、
で表す。このとき、それぞれのデータの平均値は次式で与えられる。

2つの分布の平均値を比較するとき、データの平均値の差
に基づくことが考えられるが、標準化された基準がないと一般的な方法を用意することができない。例えば、体重の分布の比較のとき、単位をKgからgに変えると数値は1000倍になる。統計学では、分散が1になるように標準化することがよく行われる。平均値の比較の場合も、平均差をその標準偏差(分散の平方根)で割ったものについて考える。データの平均の差の分散を次式(1)で推定する。
(1) 
ここで、
は
の分布と
の分布の共通の分散
の推定値である。平均は
の分布と
の分布で異なり得るとして、それぞれ
と
で表す。
は次式(2)で与えられる。
(2) 
分母がデータ数
ではなく
となっているのは、データから推定される平均値
および
からの偏差によって求められているので分散が小さく算出される傾向にあるのを補正する働きがある。
データの平均値の差をその標準偏差の推定値で割った次式(3)の値はt値と呼ばれている。
(3) 
(3)式の値は、2つの分布の平均
と
が等しいとき、0を中心とする範囲にあることが期待されるが、平均
と
の値が異なるとき、その差に応じて0から離れた値をとることが予想される。
であるとき、(3)式の値
は自由度
のt分布に従う。t分布は図2に示されるような形の分布であるので、帰無仮説「
」に対する対立仮説「
」が正しいときは、両端の値をとりやすくなる。したがって、有意水準
に対する棄却域は図2に示されているように分布の両側に確率
の領域がとられる。

図2 両側検定
データから(3)式によって算出されるt値が棄却域に入る値のときは有水準
で帰無仮説「
」が棄却されて対立仮説「
」が採択される。
対立仮説が「
」のときは、式(3)によるt値は正の値をとることが期待される。このときは図3に示されるように棄却域は分布の正の側(右側)に設定され、t値が棄却域に入るような大きい正の値であれば帰無仮説「
」は棄却されて対立仮説が「
」が採択される。

図3 対立仮説「
」に対する片側検定 図4 対立仮説「
」に対する片側検定
対立仮説が「
」のときは、式(3)によるt値は負の値をとることが期待される。このときは図4に示されるように棄却域は分布の負の側(左側)に設定され、t値が棄却域に入るような絶対値の大きい負の値であれば帰無仮説「
」は棄却されて対立仮説が「
」が採択される。
t検定を行うためのプログラムはここをクリックして表示されるページに用意した。
t分布についての説明はここをクリックして表示されるページで行う。
このページで扱ったデータの場合、例えばA市とB市の中学生の例ではA市とB市が十分に離れているとすると、A市の1人1人の中学生に対して自然に対応する(兄弟であるとか、学力に関係すると考えられる何らかの要因によって対応する)B市の中学生が存在するわけではない。このようなデータは条件間で独立であるデータ、あるいは対応のないデータと呼ばれている。これに対して、食事前の反応時間と食事後の反応時間を比べるときは、同じ人について食事前と食事後の反応時間を測定して、各被験者内で2つの反応時間の比較が行われる。このようなデータは対応のあるデータと呼ばれ、上で説明した方法とは異なった検定法が用いられる。
統計学の入門書として<岡本安晴「データ分析のための統計学入門――統計学の考え方――」おうふう、2009>を用意している。