この章で学ぶこと
不確かさを数理的に扱う確率統計を学びます。期待値・分散と代表的な分布、データから関係を読みとる回帰・相関が中心です。
- 確率変数と確率分布(離散・連続)
- 期待値と分散
- 二項分布・正規分布
- 相関係数と回帰直線(最小二乗法)
ポイント: 期待値は「平均的にどうなるか」、分散は「ばらつきの大きさ」を表す最も基本的な量です。連続分布では「確率密度関数を積分して確率を出す」のがポイント。回帰・相関は2変数データの関係を測ります。
1. 確率変数と期待値・分散
確率変数 X の期待値(平均) E[X] と分散 V[X] は、離散・連続でそれぞれ次のように定義します。
| 離散 | 連続(密度 f) |
|---|
| 期待値 | E[X]=∑ixipi | E[X]=∫−∞∞xf(x)dx |
| 分散 | V[X]=∑i(xi−μ)2pi | V[X]=∫(x−μ)2f(x)dx |
分散は V[X]=E[X2]−(E[X])2 でも計算できます。標準偏差は σ=V[X]。
例題: さいころの目 X(1∼6 が等確率 61)の期待値と分散を求めよ。
E[X]=61+2+3+4+5+6=621=27
E[X2]=61+4+9+16+25+36=691
V[X]=E[X2]−(E[X])2=691−449=12182−147=1235
検算: 691=12182、449=12147、差 1235≈2.92。分散は正で妥当な大きさ。正しい。
2. 連続分布の例
例題: 確率密度 f(x)=2x (0≤x≤1)、それ以外 0 の確率変数 X の期待値を求めよ(全確率が 1 になることも確認せよ)。
まず全確率: ∫012xdx=[x2]01=1(∘、密度として正当)。期待値は
E[X]=∫01x⋅2xdx=∫012x2dx=[32x3]01=32
検算: 密度が右上がり(0≤x≤1 で大きい x ほど起こりやすい)なので、平均は区間の中点 0.5 より大きい 32≈0.67 になるのは妥当。正しい。
3. 二項分布と正規分布
二項分布 B(n,p): 成功確率 p の試行を n 回行ったときの成功回数 X の分布。
P(X=k)=(kn)pk(1−p)n−k,E[X]=np,V[X]=np(1−p)
例題: コインを 10 回投げたときの表の回数 X(p=21)の期待値と分散を求めよ。
E[X]=10⋅21=5,V[X]=10⋅21⋅21=410=2.5
検算: 10 回中だいたい半分の 5 回が表になるのは直感に合う。分散 2.5、標準偏差 2.5≈1.58。正しい。
正規分布 N(μ,σ2): 平均 μ・分散 σ2 の連続分布で、密度は
f(x)=2πσ1exp(−2σ2(x−μ)2)
平均を中心とした左右対称の釣鐘形で、X を Z=σX−μ と標準化すると標準正規分布 N(0,1) に従います。二項分布は n が大きいとき正規分布で近似できます。
大事: 正規分布では「平均 ± 標準偏差」の範囲に約 68%、「平均 ±2σ」に約 95% が入ります(68-95-99.7 則)。標準化して標準正規分布表を引くのが確率計算の基本手順です。
4. 相関係数と回帰直線
2変数データ (xi,yi) の関係の強さは相関係数
r=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)=sxsysxy
で測ります(−1≤r≤1)。r が 1 に近いほど右上がりの直線関係が強い。最小二乗法による回帰直線 y=ax+b の傾きは
a=sx2sxy=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ),b=yˉ−axˉ
例題: データ (1,2),(2,2),(3,4),(4,4) の回帰直線を最小二乗法で求めよ。
平均は xˉ=41+2+3+4=2.5、yˉ=42+2+4+4=3。偏差の積和と平方和を計算する。
∑(xi−xˉ)(yi−yˉ)=(−1.5)(−1)+(−0.5)(−1)+(0.5)(1)+(1.5)(1)=1.5+0.5+0.5+1.5=4
∑(xi−xˉ)2=(−1.5)2+(−0.5)2+(0.5)2+(1.5)2=2.25+0.25+0.25+2.25=5
傾き a=54=0.8、切片 b=3−0.8⋅2.5=3−2=1。よって回帰直線は
y=0.8x+1
検算: 予測値は x=1,2,3,4 で 1.8,2.6,3.4,4.2。実測 2,2,4,4 との残差は 0.2,−0.6,0.6,−0.2 で和が 0(最小二乗の性質)。また直線は点 (xˉ,yˉ)=(2.5,3) を通る(0.8⋅2.5+1=3)。正しい。
どう問われるか
- 一次では「期待値・分散の計算」「二項分布・正規分布の確率」が頻出。標準化と確率表の利用が鍵。
- 二次では「連続分布の期待値・分散を積分で求める」「相関係数・回帰直線を計算する」「仮説検定・推定の基礎」が問われます。
まとめ
- 期待値は平均、分散 V[X]=E[X2]−(E[X])2、標準偏差 σ=V
- 二項分布 E=np, V=np(1−p)、正規分布は標準化して表を引く
- 相関係数 r=sxsysxy、−1≤r≤1
- 回帰直線は最小二乗法、傾き a=sx2sxy、点 (xˉ,yˉ) を通る
次章では、数値解析・初等整数論と二次対策を学び、本教材を仕上げます。