线性模型回归中的置信区间

Oct 15, 2024 · 2 min read

在了解置信区间之前,先来区分两个不同的概念。

1. 置信区间(Confidence Interval)

置信区间用于估计回归系数或预测值的均值的范围,反映了模型参数的不确定性。它考虑的是模型参数(如回归系数)的不确定性,但不包括未来观测值的随机性。

2. 预测区间(Prediction Interval)

预测区间用于估计新的单个观测值的范围,它不仅考虑了模型参数的不确定性,还考虑了新的观测值中的随机性(即数据中的固有噪声)。因此,预测区间通常比置信区间宽。

3. 线性回归模型回顾

考虑一个线性回归模型:

$$ Y = X\beta + \epsilon $$

其中:

  • $ Y $ 是 $ n \times 1 $ 的响应变量向量。
  • $ X $ 是 $ n \times (p+1) $ 的设计矩阵(包含截距项)。
  • $ \beta$ 是 $ (p+1) \times 1 $ 的回归系数向量。
  • $ \epsilon $ 是 $ n \times 1 $ 的误差向量,假设 $ \epsilon \sim \mathcal{N}(0, \sigma^2 I) $。

通过最小二乘法(OLS),回归系数的估计值为:

$$ \hat{\beta} = (X^T X)^{-1} X^T Y $$

4. 预测均值的定义

对于一个新的自变量向量 $ x_0 $(包括截距项,即长度为 $ p+1 $),预测均值 $ \hat{y}_0 $ 定义为:

$$ \hat{y}_0 = x_0^T \hat{\beta} $$

5. 预测均值的标准误差推导

预测均值的标准误差 $ SE(\hat{y}_0) $ 反映了估计的预测均值的不确定性。其推导过程如下:

a. 预测均值的方差

首先,计算预测均值的方差 $ \text{Var}(\hat{y}_0) $。

$$ \hat{y}_0 = x_0^T \hat{\beta} = x_0^T (X^T X)^{-1} X^T Y $$

由于 $ Y = X\beta + \epsilon $,代入得到:

$$ \hat{y}_0 = x_0^T (X^T X)^{-1} X^T (X\beta + \epsilon) = x_0^T \beta + x_0^T (X^T X)^{-1} X^T \epsilon $$

因为 $ x_0^T \beta $ 是常数,其方差为 0。因此:

$$ \text{Var}(\hat{y}_0) = \text{Var}\left( x_0^T (X^T X)^{-1} X^T \epsilon \right) $$

利用方差的线性性质:

$$ \text{Var}(\hat{y}_0) = x_0^T (X^T X)^{-1} X^T \text{Var}(\epsilon) X (X^T X)^{-1} x_0 $$

由于 $ \text{Var}(\epsilon) = \sigma^2 I $(假设误差项独立同分布):

$$ \text{Var}(\hat{y}_0) = \sigma^2 x_0^T (X^T X)^{-1} X^T X (X^T X)^{-1} x_0 = \sigma^2 x_0^T (X^T X)^{-1} x_0 $$

b. 估计方差 $ \sigma^2 $ 的替代

在实际应用中,我们通常无法知道真实的 $ \sigma^2 $,因此使用残差平方和的估计值 $ \hat{\sigma}^2 $ 来替代:

$$ \hat{\sigma}^2 = \frac{RSS}{n - p - 1} = \frac{(Y - X\hat{\beta})^T (Y - X\hat{\beta})}{n - p - 1} $$

其中,$ RSS $ 是残差平方和,$ n $ 是样本量,$ p $ 是自变量的数量(不包括截距项)。

c. 预测均值的标准误差

将 $ \sigma^2 $ 用 $ \hat{\sigma}^2 $ 代替,并取方根,得到预测均值的标准误差:

$$ SE(\hat{y}_0) = \hat{\sigma} \sqrt{ x_0^T (X^T X)^{-1} x_0 } $$

d. 完整推导总结

通过上述步骤,我们得到了预测均值的标准误差的推导过程:

$$ SE(\hat{y}_0) = \hat{\sigma} \sqrt{ x_0^T (X^T X)^{-1} x_0 } $$

6. 进一步解释

  • $ x_0^T (X^T X)^{-1} x_0 $:这是新输入 $ x_0 $ 在设计矩阵 $ X $ 上的加权平方和,反映了 $ x_0 $ 在自变量空间中的位置。这个项越大,表示 $ x_0 $ 位于自变量的边缘或离群点,预测的不确定性越大。

  • $ \hat{\sigma} $:这是残差的标准误差,反映了模型对数据的拟合程度。残差越小,表示模型拟合越好,预测的不确定性越小。

7. 总结

预测均值的标准误差的推导基于以下几个关键步骤:

  1. 线性回归模型的假设:假设误差项服从正态分布且独立同分布。
  2. 最小二乘估计:使用 OLS 估计回归系数。
  3. 预测均值的表达式:将新输入 $ x_0 $ 代入回归模型得到预测均值 $ \hat{y}_0 $。
  4. 方差的计算:利用回归系数的估计性质,计算预测均值的方差。
  5. 标准误差的估计:使用残差的估计标准差 $ \hat{\sigma} $ 来近似真实标准误差。