この章で学ぶこと
第 9 章では 1 種類 の データ の性質を調べましたが、 この章では 2 種類 のデータの関係を数で表します。 「身長と体重」 「気温とアイスの売上」 のような 2 変数 のデータを解析する手法です。
- 散布図 の読み方
- 共分散 sxy の定義
- 相関係数 r の公式と 範囲
- 正の 相関・負の相関・無相関
- 回帰直線 の概念
ポイント: 「2 つの量が一緒に動くか」 を数で表すのがこの章。 因果関係とは別物 (相関がある ≠ 一方がもう一方の原因) という注意も大事。
1. 散布図
散布図とは
横軸に x、 縦軸に y をとり、 各データ (xi,yi) を点で打った図を 散布図 という。
相関の種類
| 散布の様子 | 相関 |
|---|
| 右上がりに並ぶ | 正の相関 (x が大 → y も大) |
| 右下がりに並ぶ | 負の相関 (x が大 → y は小) |
| 散らばっている | 無相関 (関係なし) |
強さの判定
| 並び方 | 強さ |
|---|
| 直線にぴったり | 強い相関 |
| 直線のまわりに散らばる | 弱い相関 |
| 完全にばらばら | 無相関 |
例
「気温」 と 「冷たい飲み物の売上」 → 正の相関 (気温が高いほど売上も上がる)。
「気温」 と 「カイロの売上」 → 負の相関 (気温が高いほど売上は下がる)。
大事: 散布図を描くだけで 直感的に相関を判定 できます。 数値計算する前にまず図で確認する習慣を。
2. 共分散
定義
x と y の 共分散 sxy は、 各データの 「x の偏差と y の偏差の積」 の平均:
sxy=n1∑i=1n(xi−xˉ)(yi−yˉ)
別公式
sxy=xy−xˉ⋅yˉ
(平均の積を 「積の平均」 から引く)
符号の意味
| sxy の符号 | 相関 |
|---|
| >0 | 正の相関 |
| <0 | 負の相関 |
| ≈0 | 無相関 |
例題
| xi | yi | xi−3 | yi−4 | 積 |
|---|
| 1 | 2 | −2 | −2 | 4 |
| 2 | 3 | −1 | −1 | 1 |
| 3 | 4 | 0 | 0 | 0 |
| 4 | 5 | 1 | 1 | 1 |
| 5 | 6 | 2 | 2 | 4 |
| 計 | | 0 | 0 | 10 |
平均xˉ=3,yˉ=4。 共分散sxy=510=2。 正 → 正の相関。
ポイント: 「x と y が同じ向きに動くと偏差の積が +、 逆向きだと −」。 これを平均したのが共分散。 直感ともよく一致します。
3. 相関係数
定義
共分散 を x,y それぞれの 標準偏差 で割ると、 −1 から +1 の範囲に標準化された 相関係数 r になる:
r=σxσysxy
範囲と解釈
−1≤r≤1
| r の値 | 相関 |
|---|
| r=1 | 完全な正の相関 (一直線に並ぶ) |
| 0.7∼1 | 強い正 |
| 0.4∼0.7 | やや強い正 |
| 0.2∼0.4 | 弱い正 |
| −0.2∼0.2 | ほぼ無相関 |
| −0.4∼−0.2 | 弱い負 |
| −1∼−0.7 | 強い負 |
| r=−1 | 完全な負の相関 |
(目安。 分野により基準は違う)
例題
第 2 節の例では σx=2,σy=2 (x が 1,2,3,4,5、 y が 2,3,4,5,6 とともに等差で並ぶ)。
r=2⋅22=22=1
完全な正の相関 (実際すべての点が y=x+1上に並ぶ)。
大事: ∣r∣ が大きいほど直線に近い並び。 ただし r=0 でも 「曲線的な関係」 があることがあります (r は線形の関係だけを測る)。
4. 相関係数の計算 (実践)
手順
- xˉ,yˉ を計算
- Vx=x2−xˉ2, Vy=y2−yˉ2
- σx=Vx,σy=Vy
- sxy=xy−xˉyˉ
- r=σxσysxy
例題
データ (n=4):
| xi | yi |
|---|
| 1 | 4 |
| 2 | 3 |
| 4 | 2 |
| 5 | 1 |
(1) 平均: xˉ=3,yˉ=2.5
(2) x2=41+4+16+25=446=11.5, Vx=11.5−9=2.5
(3) y2=416+9+4+1=430=7.5, Vy=7.5−6.25=1.25
(4) xy=44+6+8+5=423=5.75, sxy=5.75−3⋅2.5=−1.75
(5) r=2.5⋅1.25−1.75=3.125−1.75≈1.768−1.75≈−0.99
ほぼ完全な負の相関 (x が大きくなるほど y は小さくなる)。
ポイント: r の符号 が共分散の符号と必ず一致 (σ>0 なので)。 計算ミスを検算する際に使えます。
5. 相関と因果
注意 1: 相関 ≠ 因果
「アイスクリームの売上と水難事故件数には強い正の相関」 があるとしても、 「アイスが事故を起こす」 わけではない。 第三の要因 (気温 = 夏になると両方増える) が効いています。
注意 2: 外れ値の影響
ひとつの極端な点があるだけで r の値が大きく変わることがある。 必ず 散布図 を描いて確認。
注意 3: 線形関係の測定だけ
r=0 でも 「y=x2 のような曲線関係」 があることあり。 r は 直線的な関係の強さ を測るだけ。
大事: 「相関 = 因果」 と早合点しない。 入試でも 「因果関係として必ず結論できるか」 を問う設問があります。
6. 回帰直線
概念
散布図 の点の 「真ん中を通る直線」 を 回帰直線 という。 y を x で予測する直線。
公式 (参考)
最小二乗法で得られる回帰直線y=ax+b は
a=Vxsxy,b=yˉ−axˉ
例
第 2 節のデータでは a=22=1, b=4−1⋅3=1 なので回帰直線は
y=x+1
実際すべての点がこの直線上に並んでいる (r=1 と整合)。
用途
ある x から y を 予測 する:
例: 過去データの 「気温とアイスの売上」 で回帰直線が y=50x+200 なら、 気温30° の日の予測売上は y=50⋅30+200=1700個。
ポイント: 回帰直線 は 予測 に使うが、 データの範囲を大きく越える x での予測は危険 (外挿)。 必ずデータの範囲内で。
まとめ
- 2 変数の関係は 散布図 で直感、 相関係数 r で数値化
- −1≤r≤1、 符号で正 / 負、 ∣r∣ で強さ
- 計算は 「平均 → 分散 → 共分散 → r=σxσysxy」
- 相関 ≠ 因果。 第三の要因・外れ値・非線形関係に注意
- 回帰直線 y=ax+b で予測できる
これで数学I の全 10 章が終わりました。 数と式から始まり、 集合・命題、 不等式、 二次関数、 三角比、 データまで、 高校数学全体の 「足場」 を作る内容でした。 次は 数学A の 「場合の数と確率」 「図形の性質」 「整数の性質」 へと進みましょう。