図解 統計学超入門
統計学の基礎をこれ以上ないほど丁寧に
解説してくれます。
標準偏差や正規分布、二項分布といった用語を
解説しながら、
「視聴率は、日本の5800万世帯のうち
6900世帯だけの調査で信頼できるのか」とか
「選挙の出口調査はなぜ、あれほど早いタイミングで
確定情報を出すことができるのか」
といった疑問に答えていきます。
本当に丁寧な説明で分かりやすいです。
【タイトル】
図解 統計学超入門
【作者】
高橋洋一
【あらすじ・概要】
統計学の基礎を極めて丁寧に解説する。
サイコロの出目などを例にして
基本的な用語から説明する。
ヒストグラム
階級値ごとの頻度を表すグラフ。
平均値
データを合計しデータの数で割ったもの。
サイコロを3回降って、1が2回、4が1回でたら
(1+1+4)/6 = 1 が平均値。
相対度数
その度数が全体の中で締める割合。
サイコロを3回降って、1が2回、4が1回でたら
それぞれの目の相対度数は
1 : 2/3
2 : 0/3
3 : 0/3
4 : 1/3
5 : 0/3
6 : 0/3
偏差、分散
個々のデータが平均値からどれだけ離れているかが偏差。
(偏差)=(データの数値)ー(平均値)
ばらつきは正負の両方があるため、
偏差を二乗し頻度をかけたものが分散になる。
サイコロを3回降って、1が2回、4が1回でたら
(1-1)^2x2/3 +(1-1)^2x2/3 + (4-1)^2x1/3
= 2/3+2/3+9/3
= 13/3 が分散
標準偏差
マイナスを避けるため偏差を二乗にしていることで
数が大きくなりすぎることを避けるため
分散にルートをかけたものを標準偏差という。
偏差値
平均からの差を標準偏差の十分の1で割り50を加えたもの。
百点満点の感覚があるため50を平均点とした。
正規分布
平均をピークとして左右対称の山を描くような分布。
サイコロの出目など、要因が多く偶然性が高いデータは
正規分布になりやすい。
所得などは分布に偶然以外の要因も関わるので
正規分布にはならない。
正規分布であれば
平均から標準偏差±1 の範囲に全体の68%
平均から標準偏差±2 の範囲に全体の95%
平均から標準偏差±3 の範囲に全体の99%
が含まれる。
標準正規分布
平均値が0、標準偏差が1 となる正規分布。
標準正規分布表がまとめられているため
計算せずに分布が割り出せる。
データの正規化
正規分布であることがわかっているデータを
標準正規分布と同じ特徴を持つデータに変化することで
解析しやすくする。
二項分布
ある事柄が成功と失敗の2通りしかない場合で
成功確立p、失敗の確立1ーp とし、
n回行なったうち、k回成功する確率を計算すると
P(X=k) = nCk x p^k x (1-p)^n-k で表せる。
サイコロを3回振って1回だけ1が出る確率は
以下のように計算する。
nCk = 3C1 は3回のうち1回だけ1が出る組合せパターン数なので
1が出た場合を成功で〇、それ以外を✖️とすると
〇✖️✖️
✖️〇✖️
✖️✖️〇
の3パターンで
nCk = 3C1 =3 となる。
p^k は成功する確率をk乗したものなので
(1/6)^1 = 1/6
上記の〇になるパターンでは、
それぞれが1が出る確率なので 1/6 になるということ。
(1-p)^n-k は失敗する確率を( n-k)乗したものなので
(1-1/6)^(3-1) = (5/6)^2 = 25/36
上記の✖️になるパターンは
それぞれが1以外が出る確率なので、5/6 になり
それが2回繰り返されるということ。
nCk = 3C1 =3
(1/6)^1 = 1/6
(1-1/6)^(3-1) = (5/6)^2 = 25/36
を掛け合わた 75/216 が
「サイコロを3回振ったうち、1回だけ1が出る確率」になる。
中心極限定理
サイコロなどのように
毎回が独立し相互の関連がなく
互いに独立した確率変数と言えるもので成立する。
中心極限定理が成立するものでは
正規分布が成立する。
二項分布と正規分布
中心極限定理が成立するのであれば
二項分布は正規分布に近づき、
正規分布と同じ平均値予測ができる。
ここまでの理論を説明した上で、
テレビの視聴率調査は 5800万世帯農地
6900世帯 (約0.001%) でも
「95%の確かさで上下2%のレンジに入る」
ことを解説する。
仮にサンプルが十分の一だと、
「95%の確かさで上下6%のレンジに入る」
としか言えず、
10%と出た場合、4%〜16%の範囲となり
意味がある数字とは言えない。
またサンプルを10倍にすれば
「95%の確かさで上下0.6%のレンジに入る」と
言えるが、コストと比較しリターンが少ないと
判断されている。
必要に応じた正確さを出すためのサンプル数は
数学的に導き出せるが
「サンプルがランダムであること」を担保するのは難しい。
テレビの視聴率であれば、一部の地域や年齢層に
固まらないようサンプルを選ぶことが難しい。
選挙の出口調査でも、インタビューに答えるのは
比較的年齢層の高い人が多いことや
事前投票分が集計されない、などの偏りが生じている、
データがランダムでないと「中心極限定理」に当てはまらず
正規分布とならない。
【感想・考察】
「考え方を理解すれば公式を覚える必要はない」
として懇切丁寧に解説する。
サイコロを数回振るくらいの確率であれば
書き出して総当りすれば調べることができるし
その結果から公式へと導いてもらえれば理解しやすい。
「文系諸君にこんなことを言っても理解できないだろうけど」
みたいな言い方にはムッとくるが、
作者の予想通りのポイントで分からなくなるのが、
さらに悔しい。。