今回は、確率分布で最も基本的な分布である正規分布について説明します。
正規分布は釣り鐘型の分布とも呼ばれるように、図のような形をした分布です。そして、連続した確率分布で表現されます。
正規分布を考える第一歩として、まずは二項分布と呼ばれる確率分布について紹介します。
二項分布とは?
コイントスの結果が表裏の $2$ 通りとなるように、結果が $2$ つしかない試行のことをベルヌーイ試行と呼びます。そして、ベルヌーイ試行が従う確率分布のことを二項分布と呼びます。
さて、二つの結果の内で片方の事象 $A$ が起こる確率を $p$ とします。すると、もう一方の事象 $A^c$ が起こる確率は $1-p$ と置けます。
このとき、$n$ 回のベルヌーイ試行を行って事象 $A$ が $k$ 回起こる確率 $p_k(A)$ は、二項係数を使って次のように表せます。
\begin{split}
p_k(A)={}_n\RM{C}_k\,p^k(1-p)^{n-k}
\end{split}
コイントスの場合は表裏の確率はそれぞれ $\DL{\ff{1}{2}}$ になりますが、必ずしも $p=\DL{\ff{1}{2}}$ とは限らないことに注意して下さい。
$n=10$ としていくかの確率での二項分布をプロットすると、下図のようになります。
正規分布とは?
前述のように、二項分布の一般項は ${}_n\RM{C}_k\,p^k(1-p)^{n-k}$ と表せます。
これから分かるように試行回数の $n$ を増やすにつれ、確率の計算はかなり面倒になります。もし、二項分布を関数を用いて近似できれば便利といえるでしょう。
色々な確率での二項分布を考えることができますが、$p=\DL{\ff{1}{2}}$ の二項分布を関数によって近似することを考えます。
手始めに試行回数を増やして行ったとき、二項分布がどんな形になっていくかを観察しましょう。下図に $n=50,100,150$ の場合の二項分布を示します。
このように試行回数を増やしていくと、グラフの段差が段々と滑らかになってきて、釣り鐘型のシルエットが浮かび上がってきます。
こんな形をしたグラフに見覚えは無いでしょうか?そう、ガウス分布です。ガウス分布は $y=e^{-ax^2}$ で表される関数で、その形状は次のようになります。
ガウス分布が二項分布と重なるようにすることを考えます。
二項分布では分布の頂点がちょうど平均 $$x=\mu となります。一方、ガウス分布の頂点は $x=0$ の位置にあります。そのため、ガウス分布のグラフを平行移動させてやる必要があります。今、母平均を $\mu$ とすると、平行移動後のガウス分布を $f(x)=e^{-a(x-\mu)^2}$ 表すことができます。
今までは二項分布のような離散的な確率分布を考えてきましたが、ガウス分布は連続分布で表されるような確率分布です。そして、このような連続分布で表される関数のことを確率密度関数と呼びます。
次に、確率の総和が必ず $1$ となることを利用します。
さて、ガウス分布の総和はガウス積分の結果より $\DL{\sqrt{\ff{\pi}{a}}}$ となります。今、確率の総和が $1$ となるように係数を調整しなければなりません。したがって、$f(x)=\DL{\sqrt{\ff{a}{\pi}}}\,e^{-a(x-\mu)^2}$ となることが分かります。
さて、問題は係数 $a$ です。これについては、$\sigma$ を標準偏差として $\DL{\ff{1}{2\sigma^2}}$ とすれば良いことが分かっています。これより、確率密度関数を次のように表せます。
\begin{split}
f(x)=\ff{1}{\sqrt{2\pi}\sigma}e^{-\ff{(x-\mu)^2}{2\sigma^2}}
\end{split}
統計学では、この確率密度に従う分布のことを正規分布と呼びます。
次節にて、正規分布の確率密度関数の母平均と標準偏差が $\mu,\sigma$ となることを示します。
正規分布の母平均・母分散・標準偏差の計算
まず、母平均について計算します。ここでは母平均が期待値と一致することを利用します。
さて、期待値についてはその定義から以下のように積分計算が行えます。
\begin{split}
\int_{-\infty}^{\infty}xf(x)\diff x&=\int_{-\infty}^{\infty}\ff{x}{\sqrt{2\pi}\sigma}e^{-\ff{(x-\mu)^2}{2\sigma^2}}\diff x
\end{split}
ここで、$t=x-\mu$ として置換積分を行うと、
\begin{split}
\int_{-\infty}^{\infty}\ff{(\mu+t)}{\sqrt{2\pi}\sigma}e^{-\ff{t^2}{2\sigma^2}}\diff t=\ff{\mu}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}e^{-\ff{t^2}{2\sigma^2}}\diff t+\ff{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}te^{-\ff{t^2}{2\sigma^2}}\diff t
\end{split}
右辺第二項については奇関数と偶関数の積のため、その積分結果は $0$ となります。したがって、第一項のみが残ります。これはガウス積分より、
\begin{split}
\ff{\mu}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}e^{-\ff{t^2}{2\sigma^2}}\diff t=\ff{\mu}{\sqrt{2\pi}\sigma}\cdot\sqrt{2\pi}\sigma=\mu
\end{split}
と求められます。きちんと母平均と一致することが確認できました。
次に母分散を計算してみましょう。母分散も定義より以下のように計算できます。
\begin{split}
\int_{-\infty}^{\infty}(x-\mu)^2f(x)\diff x&=\ff{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}(x-\mu)^2e^{-\ff{(x-\mu)^2}{2\sigma^2}}\diff x
\end{split}
先程同様、$t=x-\mu$ として置換を行い、そして部分積分を実行すると、
\begin{split}
\ff{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}t^2e^{-\ff{t^2}{2\sigma^2}}\diff x&=\ff{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}t\cdot\left(-\sigma^2e^{-\ff{t^2}{2\sigma^2}} \right)’\diff t\EE
&=0+\ff{\sigma}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\ff{t^2}{2\sigma^2}}\diff t\EE
\end{split}
となります。そして、右辺第二項にガウス積分を適用すると、
\begin{split}
\ff{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}t^2e^{-\ff{t^2}{2\sigma^2}}\diff x&=
\ff{\sigma}{\sqrt{2\pi}}\cdot {\sqrt{2\pi}\sigma}=\sigma^2
\end{split}
が得られます。これより、正規分布の母分散も $\sigma^2$ となることが確認できました。
1シグマ区間とは?
正規分布に母平均と標準偏差を重ね合わせると下図のようになります。
今まで見てきたように、母平均の位置は正規分布の頂点と一致します。そして標準偏差 $\sigma$ の位置を図示すると、このようになります。
上の図から分かるように、標準偏差は母平均からある程度離れた位置に来ます。
さて、統計学では $\sigma$ を単位として母平均から $\pm\sigma$ の範囲の区間のことを $1$ シグマ区間と呼びます。同様に、$\pm2\sigma$ であれば $2$ シグマ区間、$\pm3\sigma$ であれば $3$ シグマ区間と呼ばれます。
母平均や標準偏差が異なっていても正規分布であれば、$1$ シグマ区間や $2$ シグマ区間に含まれる割合が同じになるため、重宝されます。
なお、$\sigma$ を単位とした区間内に含まれる割合は明らかになっており、$1$ シグマ区間であれば範囲内に $68.3\,\%$、$2$ シグマ区間内の範囲には $95.5\,\%$、$3$ シグマ区間内の範囲には $99.7\,\%$ の要素が含まれます。
製造業など品質管理や品質改善を行う場面では、正規分布のこのような性質が利用されています。