线性模型回归中的置信区间

在了解置信区间之前，先来区分两个不同的概念。

1. 置信区间（Confidence Interval）

置信区间用于估计回归系数或预测值的均值的范围，反映了模型参数的不确定性。它考虑的是模型参数（如回归系数）的不确定性，但不包括未来观测值的随机性。

预测区间用于估计新的单个观测值的范围，它不仅考虑了模型参数的不确定性，还考虑了新的观测值中的随机性（即数据中的固有噪声）。因此，预测区间通常比置信区间宽。

考虑一个线性回归模型：

$$ Y = X\beta + \epsilon $$

其中：

$ Y $ 是 $ n \times 1 $ 的响应变量向量。
$ X $ 是 $ n \times (p+1) $ 的设计矩阵（包含截距项）。
$ \beta$ 是 $ (p+1) \times 1 $ 的回归系数向量。
$ \epsilon $ 是 $ n \times 1 $ 的误差向量，假设 $ \epsilon \sim \mathcal{N}(0, \sigma^2 I) $。

通过最小二乘法（OLS），回归系数的估计值为：

$$ \hat{\beta} = (X^T X)^{-1} X^T Y $$

对于一个新的自变量向量 $ x_0 $（包括截距项，即长度为 $ p+1 $），预测均值 $ \hat{y}_0 $ 定义为：

$$ \hat{y}_0 = x_0^T \hat{\beta} $$

预测均值的标准误差 $ SE(\hat{y}_0) $ 反映了估计的预测均值的不确定性。其推导过程如下：

首先，计算预测均值的方差 $ \text{Var}(\hat{y}_0) $。

$$ \hat{y}_0 = x_0^T \hat{\beta} = x_0^T (X^T X)^{-1} X^T Y $$

由于 $ Y = X\beta + \epsilon $，代入得到：

$$ \hat{y}_0 = x_0^T (X^T X)^{-1} X^T (X\beta + \epsilon) = x_0^T \beta + x_0^T (X^T X)^{-1} X^T \epsilon $$

因为 $ x_0^T \beta $ 是常数，其方差为 0。因此：

$$ \text{Var}(\hat{y}_0) = \text{Var}\left( x_0^T (X^T X)^{-1} X^T \epsilon \right) $$

利用方差的线性性质：

$$ \text{Var}(\hat{y}_0) = x_0^T (X^T X)^{-1} X^T \text{Var}(\epsilon) X (X^T X)^{-1} x_0 $$

由于 $ \text{Var}(\epsilon) = \sigma^2 I $（假设误差项独立同分布）：

$$ \text{Var}(\hat{y}_0) = \sigma^2 x_0^T (X^T X)^{-1} X^T X (X^T X)^{-1} x_0 = \sigma^2 x_0^T (X^T X)^{-1} x_0 $$

在实际应用中，我们通常无法知道真实的 $ \sigma^2 $，因此使用残差平方和的估计值 $ \hat{\sigma}^2 $ 来替代：

$$ \hat{\sigma}^2 = \frac{RSS}{n - p - 1} = \frac{(Y - X\hat{\beta})^T (Y - X\hat{\beta})}{n - p - 1} $$

其中，$ RSS $ 是残差平方和，$ n $ 是样本量，$ p $ 是自变量的数量（不包括截距项）。

将 $ \sigma^2 $ 用 $ \hat{\sigma}^2 $ 代替，并取方根，得到预测均值的标准误差：

$$ SE(\hat{y}_0) = \hat{\sigma} \sqrt{ x_0^T (X^T X)^{-1} x_0 } $$

通过上述步骤，我们得到了预测均值的标准误差的推导过程：

$$ SE(\hat{y}_0) = \hat{\sigma} \sqrt{ x_0^T (X^T X)^{-1} x_0 } $$

$ x_0^T (X^T X)^{-1} x_0 $：这是新输入 $ x_0 $ 在设计矩阵 $ X $ 上的加权平方和，反映了 $ x_0 $ 在自变量空间中的位置。这个项越大，表示 $ x_0 $ 位于自变量的边缘或离群点，预测的不确定性越大。
$ \hat{\sigma} $：这是残差的标准误差，反映了模型对数据的拟合程度。残差越小，表示模型拟合越好，预测的不确定性越小。

预测均值的标准误差的推导基于以下几个关键步骤：