この 章 で 学ぶ こと
第 9 章 で は 1 種類 の データ の 性質 を 調 べ ました が、 こ の 章 で は 2 種類 の データ の 関係 を 数 で 表 し ます。 「身長 と 体重」 「気温 と アイス の 売上」 の よう な 2 変数 の データ を 解析 する 手法 で す。
- 散布図 の 読 み 方
- 共分散 sxy の 定義
- 相関係数 r の 公式 と 範囲
- 正 の 相関・負 の 相関・無相関
- 回帰直線 の 概念
ポイント: 「2 つ の 量 が 一緒 に 動 く か」 を 数 で 表 す の が こ の 章。 因果関係 と は 別物 (相関 が あ る ≠ 一方 が もう 一方 の 原因) と いう 注意 も 大事。
1. 散布図
散布図 と は
横軸 に x、 縦軸 に y を と り、 各 データ (xi,yi) を 点 で 打 っ た 図 を 散布図 と いう。
相関 の 種類
| 散布 の 様子 | 相関 |
|---|
| 右上がり に 並 ぶ | 正 の 相関 (x が 大 → y も 大) |
| 右下がり に 並 ぶ | 負 の 相関 (x が 大 → y は 小) |
| 散ら ば って いる | 無相関 (関係 なし) |
強 さ の 判定
| 並び 方 | 強 さ |
|---|
| 直線 に ぴったり | 強 い 相関 |
| 直線 の まわり に 散らばる | 弱 い 相関 |
| 完全 に ばらばら | 無相関 |
例
「気温」 と 「冷たい 飲み物 の 売上」 → 正 の 相関 (気温 が 高 い ほ ど 売上 も 上 が る)。
「気温」 と 「カイロ の 売上」 → 負 の 相関 (気温 が 高 い ほ ど 売上 は 下 が る)。
大事: 散布図 を 描 く だ け で 直感的 に 相関 を 判定 で き ま す。 数値計算 す る 前 に ま ず 図 で 確認 す る 習慣 を。
2. 共分散
定義
x と y の 共分散 sxy は、 各 データ の 「x の 偏差 と y の 偏差 の 積」 の 平均:
sxy=n1∑i=1n(xi−xˉ)(yi−yˉ)
別公式
sxy=xy−xˉ⋅yˉ
(平均 の 積 を 「積 の 平均」 から 引 く)
符号 の 意味
| sxy の 符号 | 相関 |
|---|
| >0 | 正 の 相関 |
| <0 | [負 |
| ≈0 | [無 |
例題
| xi | yi | xi−3 | yi−4 | 積 |
|:---:|:---:|:---:|:---:|:---:|
| 1 | 2 | −2 | −2 | 4 |
| 2 | 3 | −1 | −1 | 1 |
| 3 | 4 | 0 | 0 | 0 |
| 4 | 5 | 1 | 1 | 1 |
| 5 | 6 | 2 | 2 | 4 |
| 計 | | 0 | 0 | 10 |
平均xˉ=3,yˉ=4。 共分散sxy=510=2。 正 → 正 の 相関。
ポイント: 「x と y が 同 じ 向 き に 動 く と 偏差 の 積 が +、 逆向 き だ と −」。 これ を 平均 し た の が 共分散。 直感 と も よ く 一致 し ま す。
3. 相関係数
定義
共分散 を x,y それぞれ の 標準偏差 で 割 る と、 −1 から +1 の 範囲 に 標準化 さ れ た 相関係数 r に なる:
r=σxσysxy
範囲 と 解釈
−1≤r≤1
| r の 値 | 相関 |
|---|
| r=1 | 完全 な 正 の 相関 (一直線 に 並 ぶ) |
| 0.7∼1 | 強 い 正 |
| 0.4∼0.7 | やや 強 い 正 |
| 0.2∼0.4 | 弱 い 正 |
| −0.2∼0.2 | ほ ぼ 無相関 |
| −0.4∼−0.2 | 弱 い 負 |
| −1∼−0.7 | 強 い 負 |
| r=−1 | 完全 な 負 の 相関 |
(目安。 分野 に より 基準 は 違う)
例題
第 2 節 の 例 で は σx=2,σy=2 (x が 1,2,3,4,5、 y が 2,3,4,5,6 と とも に 等差 で 並 ぶ)。
r=2⋅22=22=1
完全 な 正 の 相関 (実際 すべて の 点 が y=x+1上 に 並 ぶ)。
大事: ∣r∣ が 大 き い ほ ど 直線 に 近 い 並 び。 ただし r=0 で も 「曲線的 な 関係」 が ある ことが あり ます (r は 線形 の 関係 だけ を 測る)。
4. 相関係数 の 計算 (実践)
手順
- xˉ,yˉ を 計算
- Vx=x2−xˉ2, Vy=y2−yˉ2
- σx=Vx,σy=Vy
- sxy=xy−xˉyˉ
- r=σxσysxy
例題
データ (n=4):
| xi | yi |
|---|
| 1 | 4 |
| 2 | 3 |
| 4 | 2 |
| 5 | 1 |
(1) 平均: xˉ=3,yˉ=2.5
(2) x2=41+4+16+25=446=11.5, Vx=11.5−9=2.5
(3) y2=416+9+4+1=430=7.5, Vy=7.5−6.25=1.25
(4) xy=44+6+8+5=423=5.75, sxy=5.75−3⋅2.5=−1.75
(5) r=2.5⋅1.25−1.75=3.125−1.75≈1.768−1.75≈−0.99
ほぼ 完全 な 負 の 相関 (x が 大 きく なる ほど y は 小 さ く な る)。
ポイント: r の 符号 が 共分散 の 符号 と 必ず 一致 (σ>0 なので)。 計算 ミス を 検算 す る 際 に 使 え ま す。
5. 相関 と 因果
注意 1: 相関 ≠ 因果
「アイスクリーム の 売上 と 水難事故件数 に は 強 い 正 の 相関」 が ある と し て も、 「アイス が 事故 を 起こす」 わ け で は な い。 第三 の 要因 (気温 = 夏 に な る と 両方増 え る) が 効 い て い ま す。
注意 2: 外れ値 の 影響
ひとつ の 極端 な 点 が ある だけ で r の 値 が 大 き く 変 わる こと が あ る。 必ず 散布図 を 描 い て 確認。
注意 3: 線形関係 の 測定 だけ
r=0 で も 「y=x2 の よう な 曲線関係」 が ある こと あり。 r は 直線的 な 関係 の 強 さ を 測 る だ け。
大事: 「相関 = 因果」 と 早合点 し な い。 入試 で も 「因果関係 と し て 必ず 結論 で き る か」 を 問 う 設問 が あ り ま す。
6. 回帰直線
概念
散布図 の 点 の 「真 ん 中 を 通 る 直線」 を 回帰直線 と いう。 y を x で 予測 す る 直線。
公式 (参考)
最小二乗法 で 得 ら れ る 回帰直線y=ax+b は
a=Vxsxy,b=yˉ−axˉ
例
第 2 節 の データ で は a=22=1, b=4−1⋅3=1 なので 回帰直線 は
y=x+1
実際 すべて の 点 が こ の 直線上 に 並 ん で い る (r=1 と 整合)。
用途
ある x から y を 予測 す る:
例: 過去 デ ー タ の 「気温 と アイス の 売上」 で 回帰直線 が y=50x+200 な ら、 気温30° の 日 の 予測売上 は y=50⋅30+200=1700個。
ポイント: 回帰直線 は 予測 に 使 う が、 デ ー タ の 範囲 を 大 き く 越 え る x で の 予測 は 危険 (外挿)。 必ず デ ー タ の 範囲内 で。
まとめ
- 2 変数 の 関係 は 散布図 で 直感、 相関係数r で 数値化
- −1≤r≤1、 符号 で 正 / 負、 ∣r∣ で 強 さ
- 計算 は 「平均 → 分散 → 共分散 → r=σxσysxy」
- 相関 ≠ 因果。 第三 の 要因・外 れ 値・非線形関係 に 注意
- 回帰直線y=ax+b で 予測 で き る
これ で 数学I の 全 10 章 が 終 わ り ま し た。 数 と 式 か ら 始 ま り、 集合・命題、 不等式、 二次関数、 三角比、 デ ー タ ま で、 高校数学全体 の 「足場」 を 作 る 内容 で し た。 次 は 数学A の 「場合 の 数 と 確率」 「図形 の 性質」 「整数 の 性質」 へ と 進 み ま し ょう。