データの分析第 4 回

分散と標準偏差

はじめに

データの散らばりを表すものとして,四分位偏差を学びましたが,他にも標準偏差というものがあります。 標準偏差は,正規分布という代表的な分布にも繋がるので,より代表的な散らばりの尺度です。

目次

偏差

前回学んだ四分位偏差は,データの中央値からの散らばりを見たものと考えられます。 対して今回は,データの平均からの散らばりを考えます。

考えるデータの値を次のように表すとします。 これから考えるのは,中央値ではなく平均なので,データが大きさ順に並ぶ必要はありません。

\( \begin{align} x_1, x_2, \cdots, x_n \end{align} \)

データの各値の平均とのズレをその値の(平均からの)偏差といいます。 例えば,このデータの平均を\(\overline{x}\)と表すとき,\(x_3\)の偏差は次の式で表せます。

\( \begin{align} x_3 - \overline{x} \end{align} \)

平均偏差

それでは,データ全体の散らばりを考えるために,データ全体の平均からのズレを考えてみましょう。 単純に考えると,すべての偏差を平均すれば,全体的のズレが分かりそうです。

\( \begin{align} \displaystyle\frac{(x_1 - \overline{x}) + (x_2 - \overline{x}) + \cdots + (x_n - \overline{x})}{n} \end{align} \)

しかし,これは間違いです。 データの値が平均より大きいと偏差は正になり,平均より小さいと偏差は負になります。 なので上の式を使うと,正の偏差と負の偏差が打ち消しあって,結局その値は必ず\(0\)になります。


先ほどの式では,分子で偏差を合計したのが問題でした。 単純に合計するのがダメなら,正負の偏差が打ち消しあわないように,偏差の絶対値を合計すれば良さそうです。

\( \begin{align} \displaystyle\frac{|x_1 - \overline{x}| + |x_2 - \overline{x}| + \cdots + |x_n - \overline{x}|}{n} \end{align} \)

この値を平均偏差といいます。 確かにこの値は,データの平均からのズレが激しいほど大きくなり,データが平均周りに集中するほど小さくなります。 データの散らばりの尺度として使えそうですね。

しかし,平均偏差も普通使われません。 理由は色々ありますが,簡単な理由としては,数学的に絶対値の取り扱いが面倒だからです。

分散

平均偏差の定義では,分子で正負の偏差が打ち消しあわないように,偏差の絶対値を使いました。 しかし符号を打ち消す方法は絶対値だけではありません。 偏差を2乗するという方法もアリです。 2乗してしまえば,符号を強制的に正にできます。

このように,偏差の2乗の平均をとった値\(s^2\)分散といいます。 よく\(s^2\)という記号で表すので,ここでもそのように表記しています。

分散

変量\(x\)の分散\(s^2\)は次の式で定義される。

\( \begin{align} s^2 = \displaystyle\frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + \cdots + (x_n - \overline{x})^2}{n} \end{align} \)

偏差を2乗しているので,データの値が平均から離れれば離れるほど,分散の値は急激に大きくなります。 なので散らばりを厳しめに見る側面がある一方,少しの外れ値に影響されて,やたらと大きな値になる可能性があります。

標準偏差

分散は偏差の2乗を使っており,絶対値よりも数学的に扱いやすいです。 しかし,2乗しているせいで,元のデータと単位が変わってしまっています。 例えば身長(単位\(\mathrm{cm}\))のデータの分散は,単位が\(\mathrm{cm}^2\)です。

この不都合を解消するため,分散の正の平方根をとった値を標準偏差といいます。 よく\(s\)という記号で表すので,ここでもそのように表記します。

標準偏差

変量\(x\)の分散を\(s^2\)とすると,標準偏差\(s\)は次の式で定義される。

\( \begin{align} s &= \sqrt{s^2} \\[5pt] &= \sqrt{\displaystyle\frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + \cdots + (x_n - \overline{x})^2}{n}} \end{align} \)

標準偏差の単位は元のデータと同一です。 また,分散の平方根をとっただけなので,データの散らばりが大きいほど値が大きくなるとか,外れ値の影響を受けやすいといった特徴は分散と同じです。


分散や標準偏差は,素直に計算する以外にも,次のように計算することもできます。 何かと便利な計算方法です。

\( \begin{align} s^2 &= \overline{x^2} - (\overline{x})^2 \\[5pt] s &= \sqrt{\overline{x^2} - (\overline{x})^2} \end{align} \)

記号がややこしいですが,\(\overline{x^2}\)は「データの値の2乗」の平均で,\((\overline{x})^2\)は「データの値の平均」の2乗です。 この等式が成り立つことは,簡単な計算で確かめられます。

確認問題

次のデータ\(A\)\(B\)は,それぞれ別の\(5\)人グループの身長のデータです。 これらのデータについて,(1)~(3)に答えてください。 平方根の計算には電卓を使い,小数第2位まで求めてください。

\( \begin{align} A: 162, \ 171, \ 168, \ 158, \ 161 \end{align} \)
\( \begin{align} B: 152, \ 158, \ 147, \ 163, \ 160 \end{align} \)
  1. \(A\)の分散と標準偏差を求めてください。

  2. \(B\)の分散と標準偏差を求めてください。

  3. \(A\)\(B\)のうち,データの平均からの散らばりがより大きいのはどちらか答えてください。

答え

分散と標準偏差の計算練習です。 分散や標準偏差は,値が大きいほどデータの散らばりが大きいということを表します。

  1. まずは平均を求めましょう。

    \( \begin{align} &\quad\displaystyle\frac{162 + 171 + 168 + 158 + 161}{5} \\[5pt] &= \displaystyle\frac{820}{5} \\[5pt] &= 164 \end{align} \)

    次に分散を求めますが,計算がごちゃごちゃしないように,まず偏差を求める表を作ります。

    データの値 偏差 偏差\(^2\)
    \(162\) \(-2\) \(4\)
    \(171\) \(7\) \(49\)
    \(168\) \(4\) \(16\)
    \(158\) \(-6\) \(36\)
    \(161\) \(-3\) \(9\)

    この値を使って分散を求めます。

    \( \begin{align} &\quad\displaystyle\frac{4 + 49 + 16 + 36 + 9}{5} \\[5pt] &= \displaystyle\frac{114}{5} \\[5pt] &= \textcolor{red}{22.8} \end{align} \)

    最後に標準偏差を求めます。

    \( \begin{align} \sqrt{22.8} = \textcolor{red}{4.77} \end{align} \)
  2. まずは平均を求めましょう。

    \( \begin{align} &\quad\displaystyle\frac{152 + 158 + 147 + 163 + 160}{5} \\[5pt] &= \displaystyle\frac{780}{5} \\[5pt] &= 156 \end{align} \)

    次に分散を求めますが,計算がごちゃごちゃしないように,まず偏差を求める表を作ります。

    データの値 偏差 偏差\(^2\)
    \(152\) \(-4\) \(16\)
    \(158\) \(2\) \(4\)
    \(147\) \(-9\) \(81\)
    \(163\) \(7\) \(49\)
    \(160\) \(4\) \(16\)

    この値を使って分散を求めます。

    \( \begin{align} &\quad\displaystyle\frac{16 + 4 + 81 + 49 + 16}{5} \\[5pt] &= \displaystyle\frac{166}{5} \\[5pt] &= \textcolor{red}{33.2} \end{align} \)

    最後に標準偏差を求めます。

    \( \begin{align} \sqrt{33.2} = \textcolor{red}{5.76} \end{align} \)
  3. (1),(2)より,\(B\)の方が標準偏差が大きいですから,データの平均からの散らばりがより大きいのは\(B\)です。

次のデータ\(A\)\(B\)は,それぞれ別の\(6\)人グループの身長のデータです。 これらのデータについて,(1)~(4)に答えてください。 平方根の計算には電卓を使い,答えは小数第2位まで求めてください。

\( \begin{align} A: 148, \ 152, \ 150, \ 154, \ 193, \ 151 \end{align} \)
\( \begin{align} B: 161, \ 152, \ 158, \ 170, \ 168, \ 175 \end{align} \)
  1. \(A\)の四分位偏差と標準偏差を求めてください。

  2. \(B\)の四分位偏差と標準偏差を求めてください。

  3. \(A\)\(B\)のうち,散らばりがより大きいのはどちらか,四分位偏差を基準に答えてください。

  4. \(A\)\(B\)のうち,散らばりがより大きいのはどちらか,標準偏差を基準に答えてください。

答え

四分位偏差と標準偏差は,どちらもデータの散らばりを表すものですが,どんな違いがあるでしょうか? この問題で確かめてみます。

  1. まず四分位偏差を求めるために,データの値の大きさ順に並べ替えます。

    \( \begin{align} 148, \ 150, \ 151, \ 152, \ 154, \ 193 \end{align} \)

    中央値は\(3\)番目と\(4\)番目の値の平均ですね。 なので第1四分位数は\(2\)番目の値となり,\(150\)です。 また第3四分位数は\(5\)番目の値となり,\(154\)です。 したがって,四分位偏差は次のように求められます。

    \( \begin{align} \displaystyle\frac{154 - 150}{2} &= \displaystyle\frac{4}{2} \\[5pt] &= \textcolor{red}{2} \end{align} \)

    次に標準偏差を求めます。 まずは平均を求めましょう。

    \( \begin{align} &\quad\displaystyle\frac{148 + 152 + 150 + 154 + 193 + 151}{6} \\[5pt] &= \displaystyle\frac{948}{6} \\[5pt] &= 158 \end{align} \)

    次に分散を求めますが,計算がごちゃごちゃしないように,まず偏差を求める表を作ります。

    データの値 偏差 偏差\(^2\)
    \(148\) \(-10\) \(100\)
    \(152\) \(-6\) \(36\)
    \(150\) \(-8\) \(64\)
    \(154\) \(-4\) \(16\)
    \(193\) \(35\) \(1225\)
    \(151\) \(-7\) \(49\)

    この値を使って分散を求めます。

    \( \begin{align} &\quad\displaystyle\frac{100 + 36 + 64 + 16 + 1225 + 49}{6} \\[5pt] &= \displaystyle\frac{1490}{6} \\[5pt] &= 248.33 \end{align} \)

    これで標準偏差を求められます。

    \( \begin{align} \sqrt{248.33} = \textcolor{red}{15.76} \end{align} \)
  2. まず四分位偏差を求めるために,データの値の大きさ順に並べ替えます。

    \( \begin{align} 152, \ 158, \ 161, \ 168, \ 170, \ 175 \end{align} \)

    中央値は\(3\)番目と\(4\)番目の値の平均ですね。 なので第1四分位数は\(2\)番目の値となり,\(158\)です。 また第3四分位数は\(5\)番目の値となり,\(170\)です。 したがって,四分位偏差は次のように求められます。

    \( \begin{align} \displaystyle\frac{170 - 158}{2} &= \displaystyle\frac{12}{2} \\[5pt] &= \textcolor{red}{6} \end{align} \)

    次に標準偏差を求めます。 まずは平均を求めましょう。

    \( \begin{align} &\quad\displaystyle\frac{161 + 152 + 158 + 170 + 168 + 175}{6} \\[5pt] &= \displaystyle\frac{984}{6} \\[5pt] &= 164 \end{align} \)

    次に分散を求めますが,計算がごちゃごちゃしないように,まず偏差を求める表を作ります。

    データの値 偏差 偏差\(^2\)
    \(161\) \(-3\) \(9\)
    \(152\) \(-12\) \(144\)
    \(158\) \(-6\) \(36\)
    \(170\) \(6\) \(36\)
    \(168\) \(4\) \(16\)
    \(175\) \(11\) \(121\)

    この値を使って分散を求めます。

    \( \begin{align} &\quad\displaystyle\frac{9 + 144 + 36 + 36 + 16 + 121}{6} \\[5pt] &= \displaystyle\frac{362}{6} \\[5pt] &= 60.33 \end{align} \)

    これで標準偏差を求められます。

    \( \begin{align} \sqrt{60.33} = \textcolor{red}{7.77} \end{align} \)
  3. (1),(2)より,\(B\)の方が四分位偏差が大きいですから,四分位偏差を基準にすると,散らばりがより大きいのは\(B\)です。

  4. (1),(2)より,\(A\)の方が標準偏差が大きいですから,標準偏差を基準にすると,散らばりがより大きいのは\(A\)です。


データの値をよく見てみると,\(A\)の方は\(193\)を除けば散らばりがかなり小さいです。 それに対して\(B\)の方は,全体的に散らばっています。

\(A\)\(193\)が正常な値であれば,確かに\(A\)の方が散らばっていますから,\(A\)の標準偏差の方が大きいのは正しいことです。 しかし,\(193\)を外れ値とみなすならば,\(B\)の方が散らばりが大きく,それをうまく表しているのは四分位偏差の方です。

このように,標準偏差は外れ値の影響を受けやすく,外れ値ひとつで大きな値になってしまいます。 それに対して,四分位偏差は外れ値の影響をほとんど受けません。

こうして見ると,外れ値を含むデータの散らばりを考えるときは,標準偏差より四分位偏差の方が使えそうですね。 しかし標準偏差には,ここでは語っていない利点もありますから,外れ値を除去するなどして標準偏差を使うのも良いです。