この章で学ぶこと
統計的推測 とは、 「標本 (一部) から 母集団 (全体) を推し量る」 学問。 この章では 推定 (母平均 がどのくらいかを範囲で言う) を学びます。
- 母集団 と 標本 の違い
- 標本平均 Xˉ の期待値・分散
- 大数の法則 と 中心極限定理
- 母平均 の 信頼区間 (95 %) を求める
- 母比率 の 信頼区間 (世論調査の形)
ポイント: 全員を調べる (全数調査) は大変すぎる。 だから 少数人を調べて、 全体 を数学的に推し量る のが統計 の仕事。
1. 母集団と標本
用語
| 用語 | 意味 | 例 |
|---|
| 母集団 | 調べたい集団全体 | 日本の有権者全体 |
| 標本 | 母集団から抽出 された一部 | 1000 人の世論調査 |
| 母平均 μ | 母集団の平均 | 全体 の平均身長 |
| 母分散 σ2 | 母集団の分散 | 全体 の身長のばらつき |
| 標本平均 Xˉ | 標本の平均 | 100 人の平均身長 |
無作為抽出
無作為抽出 (random sampling) とは、 母集団の各個体が 同じ確率 で標本に選ばれる抽出。 偏りを防ぐための統計学の 大原則。
大事: 「標本が母集団を代表 する」 ことが推定 の出発点。 偏った標本 (例: ネット調査だけで全国の政治を推定) は結果を大きく歪めます。
2. 標本平均の分布
標本平均Xˉ
X1,X2,…,Xn を母集団からの 無作為標本 (大きさ n) とすると、 標本平均は
Xˉ=nX1+X2+⋯+Xn
期待値と分散
| 量 | 値 |
|---|
| E[Xˉ] | μ (母平均と一致) |
| V[Xˉ] | nσ2 |
| σ(Xˉ) | nσ |
注: ここの公式は母標準偏差σ が 既知 の場合です。 実際の調査では σ が未知のことが多く、 その場合は標本標準偏差s で置き換えて 大標本近似 で扱います (n が十分大きければ同じように使える)。
重要ポイント
- E[Xˉ]=μ → 標本平均は 「正しい値を平均的に当てる」
- V[Xˉ]=σ2/n → 標本数n を増やすとばらつきが減る (n で割るだけですが、 効果大)
3. 大数の法則・中心極限定理
大数の法則
大数の法則: n を大きくすると、 標本平均Xˉ は母平均μ に 限りなく近づく。
例: コインを何度も投げれば、 表の比率は 0.5 に近づく。
中心極限定理
中心極限定理: n が大きければ、 標本平均Xˉ の分布は 元の分布が何であろうと 正規分布N(μ,σ2/n) で良く近似 できる。
大事: この定理 のお陰で、 母集団の形を詳しく知らなくても 正規分布だけ で推定ができる。 統計学が強力な理由の一つ。
4. 母平均の信頼区間
信頼区間とは
「母平均μ はこの範囲にあるだろう」 という 区間推定。 通常 95 % の信頼度を使う。
公式 (σ既知 のとき)
標本サイズ n、 標本平均xˉ、 母標準偏差σ とすると、 母平均μ の 95 % 信頼区間 は
xˉ−1.96⋅nσ≤μ≤xˉ+1.96⋅nσ
99 % のときは 2.58 を使う。
公式の由来
中心極限定理で Xˉ は N(μ,σ2/n) に近い。 Z=(Xˉ−μ)/(σ/n) を標準化すると N(0,1)。 P(−1.96≤Z≤1.96)=0.95 より上式を解いて信頼区間が出る。
例題 1
ある工場の製品の重さは母標準偏差σ=5 g であることが過去からわかっている。 100 個を無作為に取り、 平均値が xˉ=50.0 g であった。 母平均μ の 95 % 信頼区間を求めよ。
解: σ/n=5/100=0.5。
50.0−1.96⋅0.5≤μ≤50.0+1.96⋅0.5
49.02≤μ≤50.98
→ 「母平均 は 49.0 g から 51.0 g の間にあると 95 % の信頼度で言える」。
大事: 「95 % の信頼度」 とは 「100 回同じ調査をすれば、 約 95 回は信頼区間が真の μ を含む」 という意味。 「μ が区間に入る確率が 95 %」 と表現するのは 不正確確 (μ は確率変数ではない)。
5. 母比率の信頼区間
公式
母比率p (例: 政党支持率) の 95 % 信頼区間は、 標本比率p^ と標本サイズ n を使って
p^−1.96np^(1−p^)≤p≤p^+1.96np^(1−p^)
例題 2
世論調査で 1000 人中 400 人が内閣を支持 していた。 内閣支持率p の 95 % 信頼区間を求めよ。
解: p^=0.4、 n=1000。
10000.4⋅0.6=0.00024≈0.0155
0.4−1.96⋅0.0155≤p≤0.4+1.96⋅0.0155
0.370≤p≤0.430
→ 「支持率は約 37 % から 43 % の間」。 ニュースで 「±3 ポイントの誤差」 と言うのはこのこと。
6. 標本サイズと精度
信頼区間の幅
幅は 2×1.96⋅σ/n → n を 4 倍にすれば幅は半分 になる。
| n | 幅 (相対) |
|---|
| 100 | 1 |
| 400 | 1/2 |
| 1600 | 1/4 |
| 10000 | 1/10 |
大事: 「精度を 2 倍にするには標本を 4 倍」 という関係が、 世論調査や試験設計の基本公式。
7. まとめ
| 量 | 公式 |
|---|
| E[Xˉ]、 V[Xˉ] | μ、 σ2/n |
| 母平均 95 % CI (σ既知) | xˉ±1.96σ/n |
| 母比率 95 % CI | p^±1.96p^(1−p^)/n |
| 大数の法則 | Xˉ→μ (n→∞) |
| 中心極限定理 | Xˉ∼N(μ,σ2/n) |
次の章: 第 8 章では 統計的検定 を学び、 「帰無仮説 が正しいと仮定 して、 それを 棄却 できるか」 を判断する方法を身につけます。