重回帰分析についてClaude Opus 4.5に説明してもらいました。
自分は間違いを指摘したり、構成を整理しました。
1. データから始める:テストの点数を予測する
5人の生徒について、1日の勉強時間と運動時間、そしてテストの点数のデータがあります。
1.1 なぜ「重」回帰なのか?
単回帰分析では説明変数が1つでしたが、現実には複数の要因が結果に影響します。
1.2 重回帰モデルの式
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \epsilon$$
- \(y\):目的変数(予測したい変数)
- \(x_1, x_2, \ldots, x_p\):説明変数(\(p\) 個)
- \(\beta_0\):切片(全ての説明変数が0のときの値)
- \(\beta_1, \ldots, \beta_p\):偏回帰係数
- \(\epsilon\):誤差項
2. 偏回帰係数の意味
偏回帰係数は「他の変数の影響を除いた」純粋な効果を表します。
3. 3変数への拡張:住宅価格の例
説明変数が増えても考え方は同じです。住宅価格を例に3変数モデルを見てみましょう。
- β₁ = +50:築年数・駅距離が同じなら、面積1㎡増で+50万円
- β₂ = -20:面積・駅距離が同じなら、築1年増で-20万円(古いほど安い)
- β₃ = -30:面積・築年数が同じなら、駅から1分遠いと-30万円
4. 行列表現と最小二乗推定
変数が増えると式が複雑になるため、行列を使って簡潔に表現します。
$$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$$
テスト点数の例では:
$$\begin{pmatrix} 55 \\ 70 \\ 77 \\ 80 \\ 93 \end{pmatrix} = \begin{pmatrix} 1 & 1 & 0.5 \\ 1 & 2 & 1 \\ 1 & 3 & 0.5 \\ 1 & 2 & 2 \\ 1 & 4 & 1 \end{pmatrix} \begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \end{pmatrix} + \boldsymbol{\epsilon}$$
Xの最初の列は切片項のための「1」の列です。
$$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$$
予測値:
$$\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{H}\mathbf{y}$$
ここで \(\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\) はハット行列(射影行列)
5. モデルの評価
5.1 決定係数(R²)
$$\bar{R}^2 = 1 – \frac{n-1}{n-p-1}(1-R^2)$$
変数の数を考慮し、モデル比較に適する
6. 統計的検定
6.1 個別係数の検定(t検定)
t統計量:
$$t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$$
自由度 \(n-p-1\) のt分布に従う。p値 < 0.05 なら有意。
6.2 モデル全体の検定(F検定)
F統計量:
$$F = \frac{R^2/p}{(1-R^2)/(n-p-1)}$$
自由度 \((p, n-p-1)\) のF分布に従う。
7. 前提条件(ガウス・マルコフ)
8. 多重共線性
- 係数の標準誤差が増大
- 係数の符号が不安定
- t検定が有意にならない
$$VIF_j = \frac{1}{1 – R_j^2}$$
\(R_j^2\):\(x_j\) を他の全説明変数で回帰したときの決定係数
- \(VIF > 5\):注意が必要
- \(VIF > 10\):深刻な多重共線性
9. 変数選択と情報量規準
| 手法 | 説明 |
|---|---|
| 前進選択法 | 変数なしから開始し、有意な変数を追加 |
| 後退消去法 | 全変数から開始し、非有意な変数を削除 |
| ステップワイズ法 | 追加と削除を組み合わせ |
$$AIC = n\ln\left(\frac{RSS}{n}\right) + 2(p+1)$$
$$BIC = n\ln\left(\frac{RSS}{n}\right) + (p+1)\ln(n)$$
10. 標準化回帰係数
$$\beta_j^* = \hat{\beta}_j \cdot \frac{s_{x_j}}{s_y}$$
\(x_j\) が1標準偏差増加したときの \(y\) の変化(標準偏差単位)。単位の異なる変数間で効果を比較可能。
11. 数学的まとめ
OLS推定量: \(\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}\)
予測値・残差: \(\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}\)、\(\hat{\boldsymbol{\epsilon}} = (\mathbf{I} – \mathbf{H})\mathbf{y}\)
分散推定: \(\hat{\sigma}^2 = \frac{RSS}{n-p-1}\)、\(\text{Var}(\hat{\boldsymbol{\beta}}) = \hat{\sigma}^2(\mathbf{X}^T\mathbf{X})^{-1}\)
検定統計量: \(t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}\)、\(F = \frac{R^2/p}{(1-R^2)/(n-p-1)}\)
限界と注意点:
- 因果関係の証明ではない(相関のみ)
- データ範囲外の予測(外挿)は信頼性が低い
- 重要な変数の欠落はバイアスを生じる
- 非線形関係には限界がある
広告
さくらのレンタルサーバムームードメイン
Oisix(おいしっくす)
らでぃっしゅぼーや
珈琲きゃろっと
エプソムソルト
【FRONTIER】
AdGuard Ad Blocker
AdGuard VPN
AdGuard DNS