この 章 で 学ぶ こと
統計的推測 と は、 「標本 (一部) か ら 母集団 (全体) を 推し量 る」 学問。 こ の 章 で は 推定 (母平均 が ど の く ら い か を 範囲 で 言 う) を 学 び ま す。
- 母集団 と 標本 の 違 い
- 標本平均Xˉ の 期待値・分散
- 大数の法則 と 中心極限定理
- 母平均 の 信頼区間 (95 %) を 求 め る
- 母比率 の 信頼区間 (世論調査 の 形)
ポイント: 全員 を 調 べ る (全数調査) は 大変 す ぎ る。 だ か ら 少数人 を 調 べ て、 全体 を 数学的 に 推し量 る の が 統計 の 仕事。
1. 母集団 と 標本
用語
| 用語 | 意味 | 例 |
|---|
| 母集団 | 調 べ た い 集団全体 | 日本 の 有権者全体 |
| 標本 | 母集団 か ら 抽出 さ れ た 一部 | 1000 人 の 世論調査 |
| 母平均 μ | 母集団 の 平均 | 全体 の 平均身長 |
| 母分散 σ2 | 母集団 の 分散 | 全体 の 身長 の ば ら つ き |
| 標本平均 Xˉ | 標本 の 平均 | 100 人 の 平均身長 |
無作為抽出
無作為抽出 (random sampling) と は、 母集団 の 各個体 が 同 じ 確率 で 標本 に 選 ば れ る 抽出。 偏 り を 防 ぐ た め の 統計学 の 大原則。
大事: 「標本 が 母集団 を 代表 す る」 こ と が 推定 の 出発点。 偏 っ た 標本 (例: ネット 調査 だ け で 全国 の 政治 を 推定) は 結果 を 大 き く 歪 め ま す。
2. 標本平均 の 分布
標本平均Xˉ
X1,X2,…,Xn を 母集団 か ら の 無作為標本 (大 き さ n) と す る と、 標本平均 は
Xˉ=nX1+X2+⋯+Xn
期待値 と 分散
| 量 | 値 |
|---|
| E[Xˉ] | μ (母平均 と 一致) |
| V[Xˉ] | nσ2 |
| σ(Xˉ) | nσ |
注: こ こ の 公式 は 母標準偏差σ が 既知 の 場合 で す。 実際 の 調査 で は σ が 未知 の こ と が 多 く、 そ の 場合 は 標本標準偏差s で 置 き 換 え て 大標本近似 で 扱 い ま す (n が 十分大 き け れ ば 同 じ よ う に 使 え る)。
重要 ポイント
- E[Xˉ]=μ → 標本平均 は 「正 し い 値 を 平均的 に 当 て る」
- V[Xˉ]=σ2/n → 標本数n を 増 や す と ば ら つ き が 減 る (n で 割 る だ け で す が、 効果大)
3. 大数 の 法則・中心極限定理
大数 の 法則
大数の法則: n を 大 き く す る と、 標本平均Xˉ は 母平均μ に 限 り な く 近 づ く。
例: コイン を 何度 も 投 げ れ ば、 表 の 比率 は 0.5 に 近 づ く。
中心極限定理
中心極限定理: n が 大 き け れ ば、 標本平均Xˉ の 分布 は 元 の 分布 が 何 で あ ろ う と 正規分布N(μ,σ2/n) で 良 く 近似 で き る。
大事: こ の 定理 の お 陰 で、 母集団 の 形 を 詳 し く 知 ら な く て も 正規分布 だ け で 推定 が で き る。 統計学 が 強力 な 理由 の 一 つ。
4. 母平均 の 信頼区間
信頼区間 と は
「母平均μ は こ の 範囲 に あ る だ ろ う」 と い う 区間推定。 通常 95 % の 信頼度 を 使 う。
公式 (σ既知 の とき)
標本 サイズ n、 標本平均xˉ、 母標準偏差σ と す る と、 母平均μ の 95 % 信頼区間 は
xˉ−1.96⋅nσ≤μ≤xˉ+1.96⋅nσ
99 % の とき は 2.58 を 使 う。
公式 の 由来
中心極限定理 で Xˉ は N(μ,σ2/n) に 近 い。 Z=(Xˉ−μ)/(σ/n) を 標準化 す る と N(0,1)。 P(−1.96≤Z≤1.96)=0.95 よ り 上式 を 解 い て 信頼区間 が 出 る。
例題 1
ある 工場 の 製品 の 重 さ は 母標準偏差σ=5 g で あ る こ と が 過去 か ら わ か っ て い る。 100 個 を 無作為 に 取 り、 平均値 が xˉ=50.0 g で あ っ た。 母平均μ の 95 % 信頼区間 を 求 め よ。
解: σ/n=5/100=0.5。
50.0−1.96⋅0.5≤μ≤50.0+1.96⋅0.5
49.02≤μ≤50.98
→ 「母平均 は 49.0 g か ら 51.0 g の 間 に あ る と 95 % の 信頼度 で 言 え る」。
大事: 「95 % の 信頼度」 と は 「100 回同 じ 調査 を す れ ば、 約 95 回 は 信頼区間 が 真 の μ を 含 む」 と い う 意味。 「μ が 区間 に 入 る 確率 が 95 %」 と 表現 す る の は 不正確確 (μ は 確率変数 で は な い)。
5. 母比率 の 信頼区間
公式
母比率p (例: 政党支持率) の 95 % 信頼区間 は、 標本比率p^ と 標本 サイズ n を 使 っ て
p^−1.96np^(1−p^)≤p≤p^+1.96np^(1−p^)
例題 2
世論調査 で 1000 人中 400 人 が 内閣 を 支持 し て い た。 内閣支持率p の 95 % 信頼区間 を 求 め よ。
解: p^=0.4、 n=1000。
10000.4⋅0.6=0.00024≈0.0155
0.4−1.96⋅0.0155≤p≤0.4+1.96⋅0.0155
0.370≤p≤0.430
→ 「支持率 は 約 37 % か ら 43 % の 間」。 ニュース で 「±3 ポイント の 誤差」 と 言 う の は こ の こ と。
6. 標本サイズ と 精度
信頼区間 の 幅
幅 は 2×1.96⋅σ/n → n を 4 倍 に す れ ば 幅 は 半分 に な る。
| n | 幅 (相対) |
|---|
| 100 | 1 |
| 400 | 1/2 |
| 1600 | 1/4 |
| 10000 | 1/10 |
大事: 「精度 を 2 倍 に す る に は 標本 を 4 倍」 と い う 関係 が、 世論調査 や 試験設計 の 基本公式。
7. まとめ
| 量 | 公式 |
|---|
| E[Xˉ]、 V[Xˉ] | μ、 σ2/n |
| 母平均 95 % CI (σ既知) | xˉ±1.96σ/n |
| 母比率 95 % CI | p^±1.96p^(1−p^)/n |
| 大数 の 法則 | Xˉ→μ (n→∞) |
| 中心極限定理 | Xˉ∼N(μ,σ2/n) |
次 の 章: 第 8 章 で は 統計的検定 を 学 び、 「帰無仮説 が 正 し い と 仮定 し て、 そ れ を 棄却 で き る か」 を 判断 す る 方法 を 身 に つ け ま す。