毎日一冊! Kennie の読書日記

面白い本をガンガン紹介していきます!!

図解 統計学超入門

統計学の基礎をこれ以上ないほど丁寧に

解説してくれます。

 

標準偏差や正規分布、二項分布といった用語を

解説しながら、

「視聴率は、日本の5800万世帯のうち

6900世帯だけの調査で信頼できるのか」とか

「選挙の出口調査はなぜ、あれほど早いタイミングで

確定情報を出すことができるのか」

といった疑問に答えていきます。

 

本当に丁寧な説明で分かりやすいです。

 

 

【タイトル】

図解 統計学超入門

 

 

【作者】

高橋洋一

 

 

【あらすじ・概要】

統計学の基礎を極めて丁寧に解説する。

 

サイコロの出目などを例にして

基本的な用語から説明する。

 

ヒストグラム

階級値ごとの頻度を表すグラフ。

 

平均値

データを合計しデータの数で割ったもの。

サイコロを3回降って、1が2回、4が1回でたら

 (1+1+4)/6 = 1 が平均値。

 

相対度数

その度数が全体の中で締める割合。

サイコロを3回降って、1が2回、4が1回でたら

それぞれの目の相対度数は

1 : 2/3

2 : 0/3

: 0/3

: 1/3

: 0/3

: 0/3

 

偏差、分散

個々のデータが平均値からどれだけ離れているかが偏差。

(偏差)=(データの数値)ー(平均値)

ばらつきは正負の両方があるため、

偏差を二乗し頻度をかけたものが分散になる。

 

サイコロを3回降って、1が2回、4が1回でたら

(1-1)^2x2/3 +(1-1)^2x2/3 + (4-1)^2x1/3

= 2/3+2/3+9/3

= 13/3 が分散

 

標準偏差

マイナスを避けるため偏差を二乗にしていることで

数が大きくなりすぎることを避けるため

分散にルートをかけたものを標準偏差という。

 

偏差値

平均からの差を標準偏差の十分の1で割り50を加えたもの。

百点満点の感覚があるため50を平均点とした。

 

正規分布

平均をピークとして左右対称の山を描くような分布。

サイコロの出目など、要因が多く偶然性が高いデータは

正規分布になりやすい。

所得などは分布に偶然以外の要因も関わるので

正規分布にはならない。

 

正規分布であれば

平均から標準偏差±1 の範囲に全体の68%

平均から標準偏差±2 の範囲に全体の95%

平均から標準偏差±3 の範囲に全体の99%

が含まれる。

 

標準正規分布

平均値が0、標準偏差が1 となる正規分布。

標準正規分布表がまとめられているため

計算せずに分布が割り出せる。

 

データの正規化 

正規分布であることがわかっているデータを

標準正規分布と同じ特徴を持つデータに変化することで

解析しやすくする。

 

二項分布

ある事柄が成功と失敗の2通りしかない場合で

成功確立p、失敗の確立1ーp とし、

n回行なったうち、k回成功する確率を計算すると

 P(X=k) = nCk x p^k x (1-p)^n-k で表せる。

 

サイコロを3回振って1回だけ1が出る確率は

以下のように計算する。

 

nCk = 3Cは3回のうち1回だけ1が出る組合せパターン数なので

1が出た場合を成功で〇、それ以外を✖️とすると

〇✖️✖️

✖️〇✖️

✖️✖️〇

の3パターンで 

nCk = 3C =3 となる。

 

p^k は成功する確率をk乗したものなので

(1/6)^1 = 1/6

上記の〇になるパターンでは、

それぞれが1が出る確率なので 1/6 になるということ。

 

(1-p)^n-k は失敗する確率を( n-k)乗したものなので

(1-1/6)^(3-1) = (5/6)^2 = 25/36

上記の✖️になるパターンは

それぞれが1以外が出る確率なので、5/6 になり

それが2回繰り返されるということ。

 

nCk = 3C =3

(1/6)^1 = 1/6 

(1-1/6)^(3-1) = (5/6)^2 = 25/36

 を掛け合わた 75/216 が

「サイコロを3回振ったうち、1回だけ1が出る確率」になる。

 

中心極限定理 

サイコロなどのように

毎回が独立し相互の関連がなく

互いに独立した確率変数と言えるもので成立する。

中心極限定理が成立するものでは

正規分布が成立する。

 

二項分布と正規分布

中心極限定理が成立するのであれば

二項分布は正規分布に近づき、

正規分布と同じ平均値予測ができる。

 

ここまでの理論を説明した上で、

テレビの視聴率調査は 5800万世帯農地

6900世帯 (約0.001%) でも

「95%の確かさで上下2%のレンジに入る」 

 ことを解説する。

 

仮にサンプルが十分の一だと、

「95%の確かさで上下6%のレンジに入る」

としか言えず、

10%と出た場合、4%〜16%の範囲となり

意味がある数字とは言えない。

 

またサンプルを10倍にすれば

「95%の確かさで上下0.6%のレンジに入る」と

言えるが、コストと比較しリターンが少ないと

判断されている。

 

必要に応じた正確さを出すためのサンプル数は

数学的に導き出せるが

「サンプルがランダムであること」を担保するのは難しい。

 

テレビの視聴率であれば、一部の地域や年齢層に

固まらないようサンプルを選ぶことが難しい。

選挙の出口調査でも、インタビューに答えるのは

比較的年齢層の高い人が多いことや

事前投票分が集計されない、などの偏りが生じている、

 

データがランダムでないと「中心極限定理」に当てはまらず

正規分布とならない。

 

 

【感想・考察】

「考え方を理解すれば公式を覚える必要はない」 

 として懇切丁寧に解説する。

 

サイコロを数回振るくらいの確率であれば

書き出して総当りすれば調べることができるし

その結果から公式へと導いてもらえれば理解しやすい。

 

「文系諸君にこんなことを言っても理解できないだろうけど」

みたいな言い方にはムッとくるが、

作者の予想通りのポイントで分からなくなるのが、

さらに悔しい。。

 

 

当ブログは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムであ「Amazonアソシエイト・プログラム」に参加しています。