重回帰分析 (Multiple Regression Analysis)

重回帰分析についてClaude Opus 4.5に説明してもらいました。
自分は間違いを指摘したり、構成を整理しました。

1. データから始める:テストの点数を予測する

5人の生徒について、1日の勉強時間と運動時間、そしてテストの点数のデータがあります。

001

表1: 5人の生徒のテスト点数データ

002

図1: 各変数と点数の関係(散布図)

003

図2: 3次元空間でのデータ点と回帰平面(データ点が平面近くに位置する)

1.1 なぜ「重」回帰なのか?

単回帰分析では説明変数が1つでしたが、現実には複数の要因が結果に影響します。

004

図3: 単回帰と重回帰の違い

1.2 重回帰モデルの式

一般的なモデル式:
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \epsilon$$

  • \(y\):目的変数(予測したい変数)
  • \(x_1, x_2, \ldots, x_p\):説明変数(\(p\) 個)
  • \(\beta_0\):切片(全ての説明変数が0のときの値)
  • \(\beta_1, \ldots, \beta_p\):偏回帰係数
  • \(\epsilon\):誤差項

2. 偏回帰係数の意味

偏回帰係数は「他の変数の影響を除いた」純粋な効果を表します。

005

図4: 偏回帰係数の意味 – 他の変数を固定したときの効果
偏回帰係数 \(\beta_j\):他の全ての説明変数を一定に保った状態で、\(x_j\) が1単位増加したときの \(y\) の平均的な変化量

006

図5: 実測値(棒グラフ)と予測値(オレンジ点)の比較

3. 3変数への拡張:住宅価格の例

説明変数が増えても考え方は同じです。住宅価格を例に3変数モデルを見てみましょう。

007

図6: 住宅価格データと各変数との関係
係数の解釈:

  • β₁ = +50:築年数・駅距離が同じなら、面積1㎡増で+50万円
  • β₂ = -20:面積・駅距離が同じなら、築1年増で-20万円(古いほど安い)
  • β₃ = -30:面積・築年数が同じなら、駅から1分遠いと-30万円

4. 行列表現と最小二乗推定

変数が増えると式が複雑になるため、行列を使って簡潔に表現します。

行列形式:
$$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$$

テスト点数の例では:

$$\begin{pmatrix} 55 \\ 70 \\ 77 \\ 80 \\ 93 \end{pmatrix} = \begin{pmatrix} 1 & 1 & 0.5 \\ 1 & 2 & 1 \\ 1 & 3 & 0.5 \\ 1 & 2 & 2 \\ 1 & 4 & 1 \end{pmatrix} \begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \end{pmatrix} + \boldsymbol{\epsilon}$$

Xの最初の列は切片項のための「1」の列です。

OLS推定量:
$$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$$

予測値:
$$\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{H}\mathbf{y}$$

ここで \(\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\) はハット行列(射影行列)

5. モデルの評価

5.1 決定係数(R²)

008

図7: 変動の分解と決定係数
調整済み決定係数:
$$\bar{R}^2 = 1 – \frac{n-1}{n-p-1}(1-R^2)$$

変数の数を考慮し、モデル比較に適する

6. 統計的検定

6.1 個別係数の検定(t検定)

仮説: \(H_0: \beta_j = 0\) vs \(H_1: \beta_j \neq 0\)

t統計量:
$$t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$$

自由度 \(n-p-1\) のt分布に従う。p値 < 0.05 なら有意。

6.2 モデル全体の検定(F検定)

仮説: \(H_0: \beta_1 = \cdots = \beta_p = 0\)(全係数がゼロ)

F統計量:
$$F = \frac{R^2/p}{(1-R^2)/(n-p-1)}$$

自由度 \((p, n-p-1)\) のF分布に従う。

7. 前提条件(ガウス・マルコフ)

009

図8: ガウス・マルコフの定理

8. 多重共線性

多重共線性:説明変数間に強い相関がある状態

  • 係数の標準誤差が増大
  • 係数の符号が不安定
  • t検定が有意にならない
VIF(分散膨張係数):
$$VIF_j = \frac{1}{1 – R_j^2}$$

\(R_j^2\):\(x_j\) を他の全説明変数で回帰したときの決定係数

  • \(VIF > 5\):注意が必要
  • \(VIF > 10\):深刻な多重共線性

9. 変数選択と情報量規準

手法 説明
前進選択法 変数なしから開始し、有意な変数を追加
後退消去法 全変数から開始し、非有意な変数を削除
ステップワイズ法 追加と削除を組み合わせ
情報量規準(小さいほど良い):
$$AIC = n\ln\left(\frac{RSS}{n}\right) + 2(p+1)$$
$$BIC = n\ln\left(\frac{RSS}{n}\right) + (p+1)\ln(n)$$

10. 標準化回帰係数

標準化回帰係数:
$$\beta_j^* = \hat{\beta}_j \cdot \frac{s_{x_j}}{s_y}$$

\(x_j\) が1標準偏差増加したときの \(y\) の変化(標準偏差単位)。単位の異なる変数間で効果を比較可能。

11. 数学的まとめ

モデル: \(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\)

OLS推定量: \(\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}\)

予測値・残差: \(\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}\)、\(\hat{\boldsymbol{\epsilon}} = (\mathbf{I} – \mathbf{H})\mathbf{y}\)

分散推定: \(\hat{\sigma}^2 = \frac{RSS}{n-p-1}\)、\(\text{Var}(\hat{\boldsymbol{\beta}}) = \hat{\sigma}^2(\mathbf{X}^T\mathbf{X})^{-1}\)

検定統計量: \(t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}\)、\(F = \frac{R^2/p}{(1-R^2)/(n-p-1)}\)

限界と注意点:

  • 因果関係の証明ではない(相関のみ)
  • データ範囲外の予測(外挿)は信頼性が低い
  • 重要な変数の欠落はバイアスを生じる
  • 非線形関係には限界がある

広告

さくらのレンタルサーバ
ムームードメイン
Oisix(おいしっくす)
らでぃっしゅぼーや
珈琲きゃろっと
エプソムソルト
【FRONTIER】
AdGuard Ad Blocker
AdGuard VPN
AdGuard DNS




«      
カテゴリーAI