线性模型回归中的置信区间

在了解置信区间之前,先来区分两个不同的概念。
1. 置信区间(Confidence Interval)
置信区间用于估计回归系数或预测值的均值的范围,反映了模型参数的不确定性。它考虑的是模型参数(如回归系数)的不确定性,但不包括未来观测值的随机性。
2. 预测区间(Prediction Interval)
预测区间用于估计新的单个观测值的范围,它不仅考虑了模型参数的不确定性,还考虑了新的观测值中的随机性(即数据中的固有噪声)。因此,预测区间通常比置信区间宽。
3. 线性回归模型回顾
考虑一个线性回归模型:
$$ Y = X\beta + \epsilon $$其中:
- $ Y $ 是 $ n \times 1 $ 的响应变量向量。
- $ X $ 是 $ n \times (p+1) $ 的设计矩阵(包含截距项)。
- $ \beta$ 是 $ (p+1) \times 1 $ 的回归系数向量。
- $ \epsilon $ 是 $ n \times 1 $ 的误差向量,假设 $ \epsilon \sim \mathcal{N}(0, \sigma^2 I) $。
通过最小二乘法(OLS),回归系数的估计值为:
$$ \hat{\beta} = (X^T X)^{-1} X^T Y $$4. 预测均值的定义
对于一个新的自变量向量 $ x_0 $(包括截距项,即长度为 $ p+1 $),预测均值 $ \hat{y}_0 $ 定义为:
$$ \hat{y}_0 = x_0^T \hat{\beta} $$5. 预测均值的标准误差推导
预测均值的标准误差 $ SE(\hat{y}_0) $ 反映了估计的预测均值的不确定性。其推导过程如下:
a. 预测均值的方差
首先,计算预测均值的方差 $ \text{Var}(\hat{y}_0) $。
$$ \hat{y}_0 = x_0^T \hat{\beta} = x_0^T (X^T X)^{-1} X^T Y $$由于 $ Y = X\beta + \epsilon $,代入得到:
$$ \hat{y}_0 = x_0^T (X^T X)^{-1} X^T (X\beta + \epsilon) = x_0^T \beta + x_0^T (X^T X)^{-1} X^T \epsilon $$因为 $ x_0^T \beta $ 是常数,其方差为 0。因此:
$$ \text{Var}(\hat{y}_0) = \text{Var}\left( x_0^T (X^T X)^{-1} X^T \epsilon \right) $$利用方差的线性性质:
$$ \text{Var}(\hat{y}_0) = x_0^T (X^T X)^{-1} X^T \text{Var}(\epsilon) X (X^T X)^{-1} x_0 $$由于 $ \text{Var}(\epsilon) = \sigma^2 I $(假设误差项独立同分布):
$$ \text{Var}(\hat{y}_0) = \sigma^2 x_0^T (X^T X)^{-1} X^T X (X^T X)^{-1} x_0 = \sigma^2 x_0^T (X^T X)^{-1} x_0 $$b. 估计方差 $ \sigma^2 $ 的替代
在实际应用中,我们通常无法知道真实的 $ \sigma^2 $,因此使用残差平方和的估计值 $ \hat{\sigma}^2 $ 来替代:
$$ \hat{\sigma}^2 = \frac{RSS}{n - p - 1} = \frac{(Y - X\hat{\beta})^T (Y - X\hat{\beta})}{n - p - 1} $$其中,$ RSS $ 是残差平方和,$ n $ 是样本量,$ p $ 是自变量的数量(不包括截距项)。
c. 预测均值的标准误差
将 $ \sigma^2 $ 用 $ \hat{\sigma}^2 $ 代替,并取方根,得到预测均值的标准误差:
$$ SE(\hat{y}_0) = \hat{\sigma} \sqrt{ x_0^T (X^T X)^{-1} x_0 } $$d. 完整推导总结
通过上述步骤,我们得到了预测均值的标准误差的推导过程:
$$ SE(\hat{y}_0) = \hat{\sigma} \sqrt{ x_0^T (X^T X)^{-1} x_0 } $$6. 进一步解释
$ x_0^T (X^T X)^{-1} x_0 $:这是新输入 $ x_0 $ 在设计矩阵 $ X $ 上的加权平方和,反映了 $ x_0 $ 在自变量空间中的位置。这个项越大,表示 $ x_0 $ 位于自变量的边缘或离群点,预测的不确定性越大。
$ \hat{\sigma} $:这是残差的标准误差,反映了模型对数据的拟合程度。残差越小,表示模型拟合越好,预测的不确定性越小。
7. 总结
预测均值的标准误差的推导基于以下几个关键步骤:
- 线性回归模型的假设:假设误差项服从正态分布且独立同分布。
- 最小二乘估计:使用 OLS 估计回归系数。
- 预测均值的表达式:将新输入 $ x_0 $ 代入回归模型得到预测均值 $ \hat{y}_0 $。
- 方差的计算:利用回归系数的估计性质,计算预测均值的方差。
- 标准误差的估计:使用残差的估计标准差 $ \hat{\sigma} $ 来近似真实标准误差。