この章で学ぶこと
中学で学んだ 「平均」 「中央値」 を高校では 統計学 の入口として体系化し、 さらに 分散・標準偏差 というデータの 「ばらつき」 を表す量を学びます。 第 10 章の 相関 とセット。
- データの 代表値 (平均値・中央値・最頻値)
- 四分位数 と 箱ひげ図
- 分散 と 標準偏差 の計算
- 公式V=x2−(xˉ)2 の使い方
- データの変換と統計量の変化
ポイント: 「データが どれくらい中央に集まっているか」 を数で表す章です。 大学入試共通テストで必出のテーマ。
1. データの代表値
3 つの代表値
| 名前 | 定義 | 強み |
|---|
| 平均値 xˉ | n1∑xi | 全体の中心を表す |
| 中央値 (メジアン) | データを並べた真ん中 | 外れ値 に影響されない |
| 最頻値 (モード) | 最も多く出る値 | カテゴリデータで有用 |
例題
データ: 3,5,7,8,8,10,12 (n=7)。
| 代表値 | 値 |
|---|
| 平均値 | 73+5+7+8+8+10+12=753≈7.57 |
| 中央値 | 並べた 4 番目 = 8 |
| 最頻値 | 2 回出る 8 |
偶数個の中央値
データ数が偶数のとき、 中央値は中央の 2 つの平均。
例: 1,3,5,8 → 中央値=23+5=4。
大事: 外れ値 (極端に大きい / 小さい値) があるときは 中央値 のほうが実態を表します。 平均だけを信じないこと。
2. 四分位数と箱ひげ図
四分位数
データを大きさの順に並べて 4 等分する区切りの値:
| 名前 | 記号 | 意味 |
|---|
| 第 1 四分位数 | Q1 | 下から 25% の位置 |
| 第 2 四分位数 | Q2 | 50% (= 中央値) |
| 第 3 四分位数 | Q3 | 75% |
四分位範囲
四分位範囲=Q3−Q1
これがデータの 「中央半分のはば」 を表します。
例題
データ (n=9): 2,3,5,6,7,8,9,11,14。
中央値Q2=7 (5 番目)。
下半分2,3,5,6 の中央値 → Q1=23+5=4。
上半分8,9,11,14 の中央値 → Q3=29+11=10。
四分位範囲=10−4=6。
箱ひげ図
最小値・Q1・Q2・Q3・最大値の 5 数を箱とひげで表す図。
| 部分 | 表すもの |
|---|
| 箱の左端 | Q1 |
| 箱の中の線 | Q2 (中央値) |
| 箱の右端 | Q3 |
| ひげの左端 | 最小値 |
| ひげの右端 | 最大値 |
| 5 数 | 値 |
|---|
| 最小値 | 2 |
| Q1 | 4 |
| Q2 | 7 |
| Q3 | 10 |
| 最大値 | 14 |
ポイント: 箱ひげ図 は 複数のデータを並べて比較 するのに強い。 平均値だけでは見えない 「ばらつき」 が一目でわかります。
3. 分散と標準偏差
偏差
各データ xi と平均xˉ の差:
xi−xˉ
これが 偏差。 偏差をそのまま平均すると必ず 0 になる (+ と − が打ち消し合う)。
分散
偏差の 平方 の平均:
V=n1∑i=1n(xi−xˉ)2
標準偏差
分散 の平方根:
σ=V
(ギリシャ文字シグマで表す。 単位が元のデータと同じに戻る)
例題
データ: 2,4,6,8,10 (n=5)。
平均xˉ=6。
| xi | xi−xˉ | (xi−xˉ)2 |
|---|
| 2 | −4 | 16 |
| 4 | −2 | 4 |
| 6 | 0 | 0 |
| 8 | 2 | 4 |
| 10 | 4 | 16 |
| 計 | 0 | 40 |
分散V=540=8、 標準偏差σ=8=22。
大事: 標準偏差 は 「データが平均からどれくらい離れているかの平均的な大きさ」。 単位がデータと同じなので直感的にわかりやすい。
4. 分散の別公式
公式
V=x2−(xˉ)2
(平均の平方を引いた 「平方の平均」)
由来
V=n1∑(xi−xˉ)2=n1∑xi2−2xˉ⋅n1∑xi+xˉ2
=x2−2xˉ2+xˉ2=x2−xˉ2
例題 (再掲)
データ 2,4,6,8,10:
x2=54+16+36+64+100=5220=44
V=44−62=44−36=8
(さきの結果と一致)
ポイント: データ数が多いとき はこの別公式のほうが速い。 偏差をいちいち出さずに済む。
5. データの変換と統計量
平均・分散の性質
各データを yi=axi+b と線形変換したとき:
| 統計量 | 変化 |
|---|
| 平均 | yˉ=axˉ+b |
| 分散 | Vy=a2Vx |
| 標準偏差 | σy=∣a∣σx |
例題
平均50, 標準偏差10 のテストの点数を y=0.5x+25 に変換すると:
| 統計量 | 値 |
|---|
| yˉ | 0.5⋅50+25=50 (変わらず) |
| σy | 0.5⋅10=5 (半分に) |
偏差値
T=σx−xˉ⋅10+50
平均50, 標準偏差10 に標準化した値。 自分が集団のどのあたりにいるかを比較するのに使います。
大事: 線形変換で 平均は同じように動く が、 分散は a2倍 (定数b は影響しない)。 ここが試験でよく問われます。
6. 例題 (総合)
10 人のテスト点数: 40,50,60,60,65,70,75,80,85,95。
(1) 平均
xˉ=1040+50+60+60+65+70+75+80+85+95=10680=68
(2) 中央値 (n=10, 偶数)
5 番目と 6 番目の平均: 265+70=67.5
(3) 分散 (別公式)
x2=101600+2500+3600+3600+4225+4900+5625+6400+7225+9025=1048700=4870
V=4870−682=4870−4624=246
(4) 標準偏差
σ=246≈15.7
ポイント: 「平均 → 平方の平均 → 分散 = 平方の平均 - 平均の平方 → 標準偏差」 の 4 ステップ。 計算を表にして進めるとミスが減ります。
まとめ
- 代表値は 平均・中央値・最頻値 を状況で使い分け
- 四分位数 と 箱ひげ図 でデータの 「広がり」 を視覚化
- 分散 = 偏差平方の平均、 標準偏差 = 分散の
- 別公式V=x2−(xˉ)2 が計算に便利
- y=ax+b で平均は線形、 分散は a2倍
次章では 「2 つのデータの関係」 を表す 相関係数 と 散布図 を学び、 データの分析 を完結させます。