前回はデータの全体的傾向を見るために度数分布表とヒストグラムを学びました。 しかしそれは視覚的な情報であり,客観性が足りません。 データから計算可能な,データを代表する値というものを考えてみましょう。
目次
代表値とは
度数分布表やヒストグラムは,データの全体的な分布の傾向を見るものでした。 これは分かりやすくて便利ですが,"見た感じ"で判断しますから,客観性が足りない気がします。 見る人によって,違う解釈をするかもしれません。
そこで,データを代表する値をデータから計算することを考えます。 これを代表値といい,色々なものが考えられますが,よく使われるものを解説します。
以下,データの例として,次のあるクラスの生徒が受けたテストの点数のデータを使うことがあります。
平均
まずはみんな知ってる平均です。 データの値の合計をデータの大きさで割った値ですね。 先ほどのテストの点数の平均を求めてみると,次のように\(59.4\)点になることが分かります。
具体的なデータの値が分からず,度数分布表だけが分かっている場合には,階級値を使って平均を計算します。 確認問題で実践してみてください。
平均はデータの値が全体的にどれくらいかを表します。 先ほどのテストの点数でいえば,みんなの点数が大体\(59.4\)点くらいだったということですね。
平均は使いやすく分かりやすい代表値ですが,異常値の影響を受けるという弱点もあります。 次の例を見てください。
ある\(10\)人の年収を調べたとき,内\(9\)人の年収が等しく\(200\)万円,残りの\(1\)人の年収が\(8200\)万円とします。 この\(10\)人の年収の平均は\(1000\)万円ですが,どう考えてもみんなの年収を代表する値ではありませんよね。
\(1\)人だけやたら高収入(外れ値)だったので,平均もその影響を受けたのです。 このように外れ値が含まれるデータに対しては,平均は参考にならないかもしれません。
中央値
他にもよく使われる代表値として,中央値があります。 メディアンや中位数ともいいます。 これはデータを値の大きさ順に並べたとき,ちょうど真ん中にくる値です。
例えば,次のデータを考えます。
これを大きさ順に並べ替えると,次のようになります。
このときちょうど真ん中に来るのは\(7\)ですから,このデータの中央値は\(7\)です。
データの大きさが偶数の場合は,真ん中2つの値の平均を中央値とします。 次のデータの中央値はどうなるでしょう?
答えは\(\displaystyle\frac{7 + 10}{2} = 8.5\)です。
中央値は大きさ順の真ん中の値をとるものですから,端の方の値は考慮しません。 つまり異常に小さい,または大きい値(外れ値)を無視できます。 外れ値の影響を受けづらいわけですね。(中央の場所がちょっとずれるという影響はあります)
その点は良いのですが,やはり全ての値を考慮しないことが問題になることがあります。 次の2つのデータ\(A\),\(B\)を比べてみてください。
中央値は\(B\)の方が大きいですが,平均は\(A\)の方が大きいですね。 このように,中央値はデータの全ての情報を反映しないので,全体的な大きさなどは表現できず,データの比較には不向きです。
中央値はあくまでひとつのデータの中で,最も"それっぽい"値を表すものです。 データを比較するなら,全体の値を考慮する平均の方が使えそうですね。(もちろん外れ値を考慮する必要がありますが)
最頻値
もうひとつよく使われる代表値として,最頻値があります。 モードともいいます。 これはデータの中で最も個数の多い値です。 次のデータの最頻値は\(2\)です。
最頻値は1つだけとは限りません。 個数が同率1位の値が複数あれば,それらは全て最頻値です。 次のデータの最頻値は\(1, \ 2\)です。
具体的なデータの値が分からず,度数分布表だけが分かっている場合には,度数が最も大きい階級の階級値を最頻値とします。 ヒストグラムでいえば,一番高い山になっている階級の階級値ですね。
最頻値は同じ値の個数を数えるわけですから,データがある程度決まった値をとる場合には便利です。 もちろん外れ値の影響は受けません。 そんな変な値が頻繁に出るようでは困りますね。
また最頻値が有効になるのは,データの大きさが十分な場合です。 次のデータを見てください。
このデータの最頻値は,\(2\)個ある\(7\)ですが,これがこのデータの代表だと言われて納得できますか? いやいや,\(2\)個しかないじゃん!と思いますよね。 データの大きさが十分でないと,最頻値は代表とするには疑わしいものになります。
データが滅多に同じ値をとらない場合は,そのままでは最頻値は使えません。 この場合は,度数分布表を作成したときと同様,データの値の範囲を階級に分けて,その度数を数えると最頻値が使えます。
最も度数が大きい階級の階級値を最頻値とするわけですね。 ヒストグラムの一番高い山の値ですから,確かに代表っぽいですね。 ただし度数分布表を作成したときと同様,階級数や階級幅のとり方で結果が変わりますから,要注意です。
確認問題
次のデータはある\(20\)人の身長(単位は\(\mathrm{cm}\))を表しています。 このデータの平均,中央値,最頻値をそれぞれ求めてください。
答え
まず平均を求めます。 \(20\)個のデータの値を合計しないといけません。
次に中央値を求めます。 データを値の大きさ順に並べ替えましょう。
この真ん中は,\(10\)個目と\(11\)個目の間ですから,中央値は次の値になります。
最後に最頻値を求めます。 先ほど大きさ順に並べ替えたデータを見ると,同じ値の個数を数えやすいでしょう。
最頻値は,同じ値が\(2\)個ある\(158 [\mathrm{cm}]\),\(166 [\mathrm{cm}]\)です。 とはいえ,データの大きさが不十分なので,意味のある値かどうかは疑わしいですね。
ある商品の中古価格を色々な店で調査し,価格のデータを度数分布表に整理すると,次のようになりました。 次の(1)~(3)に答えてください。
階級(円) | 度数 | ||||
---|---|---|---|---|---|
\(500\) | 以上 | ~ | \(1500\) | 未満 | \(10\) |
\(1500\) | ~ | \(2500\) | \(16\) | ||
\(2500\) | ~ | \(3500\) | \(42\) | ||
\(3500\) | ~ | \(4500\) | \(23\) | ||
\(4500\) | ~ | \(5500\) | \(9\) | ||
計 | \(100\) |
-
このデータの平均を,階級値と度数を用いて計算してください。
-
このデータの実際の平均としてありえる値の範囲を求めてください。
-
このデータの中央値としてありえる値の範囲を求めてください。
答え
度数分布表を正しく読み取れるようにしましょう。 階級は値の範囲なので,データの具体的な値までは分からないことに注意です。
-
度数分布表から平均を計算するときは,データの具体的な値が分からないので,各階級の階級値を使います。 つまり各階級内では,平均的に階級値をとると考え,度数の数だけその階級値があると考えるわけです。
階級値は階級の真ん中の値ですから,上の階級から順に\(1000\),\(2000\),\(3000\),\(4000\),\(5000\)です。 よって,データの値の合計は次のようになります。
\( \begin{array}{r} 1000 \times 10 \rightarrow \phantom{0}10000 \\ 2000 \times 16 \rightarrow \phantom{0}32000 \\ 3000 \times 42 \rightarrow 126000 \\ 4000 \times 23 \rightarrow \phantom{0}92000 \\ \underline{+)\phantom{0}5000 \times \phantom{0}9 \rightarrow \phantom{0}45000} \\ 305000 \end{array} \)したがって,これをデータの大きさである\(100\)で割って,平均は\(3050\)円です。
-
各階級に入るデータの値は,実際には階級内のどの値なのか分かりません。 したがって,実際の平均もはっきりとは分かりません。 しかし平均のとりうる範囲なら,各階級内で最小の値をとる場合と最大の値をとる場合を考えれば分かります。
平均がとりうる最小の値は,各階級内で最小の値をとる場合です。 このとき,データの値の合計は次のようになります。
\( \begin{array}{r} \phantom{0}500 \times 10 \rightarrow \phantom{00}5000 \\ 1500 \times 16 \rightarrow \phantom{0}24000 \\ 2500 \times 42 \rightarrow 105000 \\ 3500 \times 23 \rightarrow \phantom{0}80500 \\ \underline{+)\phantom{0}4500 \times \phantom{0}9 \rightarrow \phantom{0}40500} \\ 255000 \end{array} \)このときの平均は,この値をデータの大きさである\(100\)で割って,\(2550\)円です。
平均がとりうる最大の値は,各階級内で最大の値をとる場合です。 このとき,データの値の合計は次のようになります。
\( \begin{array}{r} 1499 \times 10 \rightarrow \phantom{0}14990 \\ 2499 \times 16 \rightarrow \phantom{0}39984 \\ 3499 \times 42 \rightarrow 146958 \\ 4499 \times 23 \rightarrow 103477 \\ \underline{+)\phantom{0}5499 \times \phantom{0}9 \rightarrow \phantom{0}49491} \\ 354900 \end{array} \)このときの平均は,この値をデータの大きさである\(100\)で割って,\(3549\)円です。
以上から,実際の平均がとりうる値は,\(2550\)円以上\(3549\)円以下です。
-
データの大きさが\(100\)ですから,中央値は,大きさ順で\(50\)番目と\(51\)番目の値の平均です。 この値がどの階級にあるかを調べましょう。 これは次のように,度数分布表を累積度数分布表に直すと考えやすいです。
階級(円) 度数 \(1500\) 未満 \(10\) \(2500\) \(26\) \(3500\) \(68\) \(4500\) \(91\) \(5500\) \(100\) これを見ると,\(1500\)円未満の値が合計\(10\)個,\(2500\)円未満の値が合計\(26\)個,\(3500\)円未満の値が合計\(68\)個と分かります。
つまり,大きさ順で\(50\),\(51\)番目のデータは,ともに\(2500\)円未満の範囲にはなく,\(3500\)円未満の範囲にあることが分かります。 したがって,中央値のとりうる値の範囲は\(2500\)円以上\(3499\)円以下です。