統計学の基本的な事項である、平均・分散・標準偏差についてその定義と性質を再確認していきます。
まず、平均は次のように定義される統計量のことです。定義から分かるように、母平均と標本平均の二種類が存在していることに注意して下さい。
そして、平均と測定値から次に定義する分散が定義されます。分散は測定値の分布のばらつきの度合いを表す指標となります。
分散は計算の性質上、測定値の単位も二乗されているのでそのままでは比較できません。そのため、分散の平方根をとった次にのように定義される標準偏差が用いられます。
まずは、平均についておさらいしていきますが、その準備として母集団・標本という用語について説明します。
母集団・標本とは?
分散と標準偏差を理解する第一歩として、統計学のいくつかの用語について再確認しておきます。
例えば、日本人男性の平均身長を調査することになったとしましょう。平均身長を知るためには当然、たくさんの男性の身長測定を行わなければなりません。
平均身長のように、ある集団の統計的なデータを得るための測定対象となる集団全体のことを母集団と呼びます。なお、$\RM{JIS}$ 規格では母集団のことをを『検討の対象となるアイテムの全体』と定義しています。
例として日本人男性の平均身長を挙げましたが、この場合の母集団のサイズは単純計算でも六千万人となります。したがって、全員に対して身長測定を行うなどほとんど不可能と言えます。
一般に母集団のサイズはかなり大きくなるため、全てのアイテムの測定を行うことは現実的ではありません。
このようなとき、母集団から一部の集団を抽出して測定を行います。統計学では、母集団から抽出した部分集合のことを標本と呼びます。$\RM{JIS}$ 規格では『一つ以上の抽出単位から成る母集団の部分集合』のことを標本と定義しています。
母集団の特性が損なわれないよう統計学では標本の選び方についての様々な手法が存在しています。
母平均・標本平均とは?
先に述べたように平均は集団の特徴を表す代表的な量です。
さて、統計学の世界には様々な平均が存在しますが、普通、平均と単に表現した場合は算術平均(=相加平均)のことを言います。
さらに(算術)平均には母集団全ての要素より求める母平均と、標本より計算した標本平均の二種類があります。
具体的には、それぞれ次のように定式化できます。
母平均と期待値の関係
ところで、確率の世界には期待値という量があります。期待値と母平均の間には興味深い関係があるので、ここで紹介します。
例えば、サイコロの目の母平均は $\mu=3.5$ となる一方、その期待値も $E=3.5$ となります。このように、母平均と期待値は一致します。
簡単な証明を以下に示します。
まず、母集団から $x_i$ という測定値が得られる確率が $p_i$ であったとします。そして、$N$ 回の測定の内 $x_i$ が測定されたのが $n_i$ 回であったとします。
すると、母平均と期待値はそれぞれ、
\begin{split}
\mu&=\sum\ff{x_in_i}{N} \EE
E&=\sum x_i\,p_i
\end{split}
と表すことができます。このとき、$\DL{\ff{n_i}{N}}$ については $N$ が十分大きくなると $p_i$ と一致すると言えます。(大数の法則)したがって、$\DL{\ff{x_in_i}{N}=x_i\,p_i}$ が成立します。以上より、
\begin{split}
\mu&=E
\end{split}
であることが示されます。
分散とは?
平均体重や平均身長のように、ある集団の性質を平均を用いて表すことがしばしばあります。しかし、平均値だけでは、その集団の個々の分布については議論できないという問題があります。
このようなとき、分散という指標が使われます。
さて、ある集団の分布を表現したいとき、一番最初に思いつくのは、平均と測定値の差(=偏差)を計算することです。このような計算を行うと、測定値が平均値に集まっていれば各偏差は小さくなるでしょうし、ばらけていれば大きくなるでしょう。
しかし、この方法には問題があります。その問題とは、偏差(=平均との差)の総和は必ず $0$ となるという点です。たとえば、身長の測定値として $170,168,175,160,167$ $\RM{cm}$ が得られた場合、その平均値は $168$ $\RM{cm}$ となります。このときの偏差を計算すると、$+2,0,+7,-8,-1$ となりますが、この総和は $0$ となります。
これでは分布の情報が何も得られないので、計算方法を工夫することにします。
偏差に替わる計算方法は様々考えられますが、偏差の二乗和を計算するのが複雑すぎない丁度良い方法と言えるでしょう。この方法を使えば、$(-2)^2+0^2+7^2+(-8)^2+(-1)^2=118$ となって先程のように $0$ となることを回避できます。また、平均からのばらつきが多ければ数値は大きくなり、逆であれば数値は小さくなるので、分布の指標としても問題なく使えそうです。
さて、統計学の世界では、もうひとひねり加えて、偏差の二乗和をその集団の全要素数で割った数値を考えます。これには母分散という名前が付けられています。
上の定義は母分散ですが、もちろん標本分散を考えることもできて、標本分散では標本平均が計算に用いられます。
標準偏差とは?
分散の定義から分かるように、計算の過程で偏差を二乗しているので単位が二乗されているという問題があります。これでは不便なため、分散の平方根を計算して単位を揃えることとします。
さて、統計学では、この分散の平方根のことを標準偏差と呼びます。
標準偏差が小さければ、観測データは平均値付近に密集していると言えますし、その逆であればデータのばらつきが大きいと言えます。
このように、標準偏差は平均からのばらつき具合を表す指標であるとも言えます。