# 模型设定与假设

简单线性回归模型(SLR)用于描述一个因变量 YY 与一个自变量 XX 之间的线性关系。

  • 模型参数:

    Yi=β0+β1Xi+εiY_i=\beta_0+\beta_1X_i+\varepsilon_i

    其中 β0\beta_0 是截距,β1\beta_1 是斜率。

  • 模型假设 (LINE):

    • Linear: 线性关系,即模型形式正确。
    • Independent: 误差项独立,即 εi\varepsilon_iεj\varepsilon_j 相互独立。
    • Normal: 误差项服从正态分布,即 εiN(0,σ2)\varepsilon_i \sim N(0, \sigma^2)
    • Equal variance: 误差项方差相等,即所有 εi\varepsilon_i 的方差均为 σ2\sigma^2
    • 综合上述假设,误差项 εi\varepsilon_i 独立同分布于 N(0,σ2)N(0, \sigma^2)

# 参数估计

  • 最小二乘法 (OLS):
    最小二乘法的目标是找到使残差平方和最小的参数估计值 β^0\hat{\beta}_0β^1\hat{\beta}_1

    β^0,β^1=argminβ0,β1i=1n(Yiβ0β1Xi)2\hat{\beta}_0, \hat{\beta}_1 = \arg\min_{\beta_0, \beta_1} \sum_{i=1}^n (Y_i - \beta_0 - \beta_1X_i)^2

    通过对上式求导并令其为零,可以得到参数的估计值:

    β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=i=1n(XiXˉ)Yii=1n(XiXˉ)2\hat{\beta}_1 = \frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n(X_i-\bar{X})^2} = \frac{\sum_{i=1}^n(X_i-\bar{X})Y_i}{\sum_{i=1}^n(X_i-\bar{X})^2}

    β^0=Yˉβ^1Xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X}

  • 最大似然法 (MLE):
    在误差项服从正态分布的假设下,最大似然法的目标是找到使似然函数最大的参数估计值。

    YiN(β0+β1Xi,σ2)Y_i \sim N(\beta_0 + \beta_1X_i, \sigma^2)

    β^0ml,β^1ml,σ^2,ml=argmaxβ0,β1,σ2L(β0,β1,σ2)\hat{\beta}^{ml}_0, \hat{\beta}^{ml}_1, \hat{\sigma}^{2,ml} = \arg\max_{\beta_0, \beta_1, \sigma^2} L(\beta_0, \beta_1, \sigma^2)

    最大似然估计值与最小二乘估计值相同:

    β^0ml=β^0,β^1ml=β^1\hat{\beta}^{ml}_0 = \hat{\beta}_0, \quad \hat{\beta}^{ml}_1 = \hat{\beta}_1

    方差的估计值为:

    σ^2,ml=i=1nei2n\hat{\sigma}^{2,ml} = \frac{\sum_{i=1}^n e_i^2}{n}

# 模型性质与方差分析

  • 残差性质:

    • 残差之和为零:i=1nei=0\sum_{i=1}^n e_i = 0
    • 残差与自变量 XX 独立:i=1nXiei=0\sum_{i=1}^n X_ie_i = 0
    • 残差与拟合值 Y^\hat{Y} 独立:i=1nY^iei=0\sum_{i=1}^n \hat{Y}_ie_i = 0
    • 回归线过均值点:Yˉ=β^0+β^1Xˉ\bar{Y} = \hat{\beta}_0 + \hat{\beta}_1\bar{X}
  • 方差性质:

    • 残差平方和 (SSE) 的无偏估计:

    s2=σ^2=i=1nei2n2=SSEdfE=MSEs^2 = \hat{\sigma}^2 = \frac{\sum_{i=1}^n e_i^2}{n-2} = \frac{SSE}{df_E} = MSE

    其中 dfE=n2df_E = n-2 是自由度。

    • s2s^2σ2\sigma^2 的无偏估计,即 E[s2]=σ2E[s^2] = \sigma^2
    • 自变量均值 Yˉ\bar{Y} 与斜率估计值 β^1\hat{\beta}_1 的协方差为零:cov(Yˉ,β^1)=0\mathrm{cov}(\bar{Y}, \hat{\beta}_1) = 0

# 参数检验

# 斜率 β1\beta_1 的检验

  • 斜率估计值 β^1\hat{\beta}_1 的分布:

    β^1=β1+i=1nXiXˉSXXεi\hat{\beta}_1 = \beta_1 + \sum_{i=1}^n \frac{X_i-\bar{X}}{S_{XX}}\varepsilon_i

    其中 SXX=i=1n(XiXˉ)2S_{XX} = \sum_{i=1}^n(X_i-\bar{X})^2
    在模型假设下,β^1\hat{\beta}_1 服从正态分布:

    β^1N(β1,σ2SXX)\hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{S_{XX}}\right)

  • 假设检验:
    检验假设为 H0:β1=0H_0: \beta_1 = 0。构造 tt 统计量:

    T=β^1s(β^1)tn2T^* = \frac{\hat{\beta}_1}{s(\hat{\beta}_1)} \sim t_{n-2}

    其中 σ2\sigma^2 的估计值 s2s^2 的方差为 s2(β^1)=s2SXXs^2(\hat{\beta}_1) = \frac{s^2}{S_{XX}}
    注意: SXX=i=1n(XiXˉ)2=(n1)σx2S_{XX} = \sum_{i=1}^n(X_i-\bar{X})^2 = (n-1)\sigma_x^2,因此 σ2(β^1)=σ2(n1)σx2\sigma^2(\hat{\beta}_1) = \frac{\sigma^2}{(n-1)\sigma_x^2}。为了使斜率估计值的方差最小,需要尽可能增大 SXXS_{XX}

  • 置信区间:
    可以利用 tt 分布构造 β1\beta_1 的置信区间:

    β^1β1s(β^1)tn2\frac{\hat{\beta}_1 - \beta_1}{s(\hat{\beta}_1)} \sim t_{n-2}

# 截距 β0\beta_0 的检验

  • 截距估计值 β^0\hat{\beta}_0 的分布:

    β^0N(β0,σ2(1n+Xˉ2SXX))\hat{\beta}_0 \sim N\left(\beta_0, \sigma^2\left(\frac{1}{n} + \frac{\bar{X}^2}{S_{XX}}\right)\right)

    σ2\sigma^2 的估计值 s2s^2 的方差为 s2(β^0)=s2(1n+Xˉ2SXX)s^2(\hat{\beta}_0) = s^2\left(\frac{1}{n} + \frac{\bar{X}^2}{S_{XX}}\right)

  • 假设检验:
    检验假设为 H0:β0=0H_0: \beta_0 = 0。构造 tt 统计量:

    β^0β0s(β^0)tn2\frac{\hat{\beta}_0 - \beta_0}{s(\hat{\beta}_0)} \sim t_{n-2}

    注意: 除非 X=0X=0 有实际意义,否则 β0\beta_0 的检验通常不重要。

# 相关系数 ρ\rho 的检验

(Xi,Yi)(X_i, Y_i) 服从二元正态分布时,可以用相关系数 ρ\rho 检验 β1\beta_1

  • β1\beta_1ρ\rho 的关系:

    β1=ρσYσX\beta_1 = \rho \frac{\sigma_Y}{\sigma_X}

    β^1=rsYsX\hat{\beta}_1 = r \frac{s_Y}{s_X}

    其中 rr 是样本相关系数,sYs_YsXs_X 分别是 YYXX 的样本标准差。

  • 假设检验:
    检验假设为 H0:ρ=0H_0: \rho = 0。构造 tt 统计量:

    T=r1r2n2tn2T^* = \frac{r}{\sqrt{1-r^2}}\sqrt{n-2} \sim t_{n-2}

# 联合检验与功效检验

  • β0\beta_0β1\beta_1 的联合检验:
    可以通过多元统计分析中的 Bonferroni 修正进行,即将显著性水平 α\alpha 分配给两个检验,如 α0=α/2\alpha_0 = \alpha/2

  • β1\beta_1 的功效 (Power) 检验:
    功效检验用于确定在备择假设成立时,拒绝原假设的概率。

    Power(β1)=P(β^1s(β^1)>tn2,1α2β10)\mathrm{Power}(\beta_1) = P\left(\left|\frac{\hat{\beta}_1}{s(\hat{\beta}_1)}\right| > t_{n-2, 1-\frac{\alpha}{2}} \mid \beta_1 \neq 0\right)

    该统计量服从非中心 tt 分布:

    T=β^1s(β^1)t(n2,δ)T^* = \frac{\hat{\beta}_1}{s(\hat{\beta}_1)} \sim t\left(n-2, \delta\right)

    其中非中心参数为 δ=β1σ(β^1)\delta = \frac{\beta_1}{\sigma(\hat{\beta}_1)}

# 其他概念

  • BLUE (Best Linear Unbiased Estimator):
    在模型假设下,最小二乘估计量 β^0\hat{\beta}_0β^1\hat{\beta}_1 是最佳线性无偏估计量。这意味着在所有无偏的线性估计量中,它们的方差最小。该结论的证明可参考多元回归的情况。

  • R 语言中的应用:

    • lm(): 用于拟合线性模型。
    • lines(), abline(): 用于在图中添加回归线。
    • qqnorm(), qqline(): 用于绘制正态 Q-Q 图,检验残差的正态性。