# 预测

# 平均响应的预测

对于给定的 XhX_h,模型预测的平均响应为 μ^h=b0+b1Xh\hat\mu_h = b_0 + b_1X_h,其真实值为 μh=β0+β1Xh\mu_h = \beta_0 + \beta_1X_h

  • 分布μ^h\hat\mu_h 服从正态分布,其均值为 μh\mu_h,方差为 σ2(1n+(XhXˉ)2SXX)\sigma^2(\frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{XX}})
  • 检验统计量μ^hμhs(μ^h)\frac{\hat\mu_h - \mu_h}{s(\hat \mu_h)} 服从自由度为 n2n-2tt 分布。
  • 标准差s(μ^h)=s1n+(XhXˉ)2SXXs(\hat \mu_h) = s\sqrt{\frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{XX}}}

注意:置信区间的宽度在 XX 值的两端较宽,在中心位置较窄,这表明模型在预测中心区域的响应时能力更强。

# 新观测值的预测

对于给定的 XhX_h,新的观测值 YhY_h 的预测值为 μ^h\hat\mu_h。预测误差 dh=Yhμ^hd_h = Y_h - \hat \mu_h

  • 分布d^h\hat d_h 服从正态分布,其均值为 00,方差为 σ2(1+1n+(XhXˉ)2SXX)\sigma^2(1 + \frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{XX}})
  • 检验统计量dhs(dh)=Yhμ^hs(pred)\frac{d_h}{s(d_h)} = \frac{Y_h - \hat\mu_h}{s(\text{pred})} 服从自由度为 n2n-2tt 分布。
  • 预测标准差s(pred)=s1+1n+(XhXˉ)2SXXs(\text{pred}) = s\sqrt{1 + \frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{XX}}}

注意

  • 平均响应的预测是基于真实的 μh\mu_h 来推断 μ^h\hat\mu_h 的分布。
  • 新观测值的预测是基于预测的 μ^h\hat\mu_h 来推断 YhY_h 的分布,其中包含了模型本身的不确定性以及新观测值本身的随机性。

# 新观测值均值的预测

当有 mm 个新观测值在 XhX_h 处时,其样本均值的预测标准差为:
s(predmean)=s1m+1n+(XhXˉ)2SXXs(\text{predmean}) = s\sqrt{\frac{1}{m} + \frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{XX}}}

# 整个回归线的置信带

整个回归线的置信带(simultaneous confidence band)用于描述整条回归线 μ^x\hat\mu_x 的置信区间。

  • 检验统计量maxμ^xμxs(μ^x)\max \frac{\hat\mu_x - \mu_x}{s(\hat\mu_x)} 服从 2F2,n2\sqrt{2F_{2,n-2}} 分布。
  • 置信带区间[L(x),U(x)]=μ^x±Ws(μ^x)[L(x), U(x)] = \hat\mu_x \pm Ws(\hat\mu_x)
  • 宽度系数W=2F1α,2,n2W = \sqrt{2F_{1-\alpha,2,n-2}}

# 方差分析 (ANOVA)

方差分析用于分解总变异,以评估回归模型对响应变量变异的解释能力。

# 基本量与自由度

总平方和(Total Sum of Squares, SST)被分解为回归平方和(Regression Sum of Squares, SSR)与残差平方和(Error Sum of Squares, SSE)。

  • SST = i(YiYˉ)2\sum_i(Y_i - \bar Y)^2
  • SSE = i(YiY^i)2=iei2\sum_i(Y_i - \hat Y_i)^2 = \sum_ie_i^2
  • SSR = i(Y^iYˉ)2=b12i(XiXˉ)2\sum_i(\hat Y_i - \bar Y)^2 = b_1^2\sum_i(X_i - \bar X)^2

相应地,自由度也满足可加性:dfT=dfE+dfRdf_T = df_E + df_R

  • dfTdf_T(SST 的自由度)= n1n-1
  • dfEdf_E(SSE 的自由度)= n2n-2
  • dfRdf_R(SSR 的自由度)= 11

均方(Mean Square, MS)为平方和与其自由度的比值:

  • MSE = SSEdfE\frac{SSE}{df_E}
  • MSR = SSRdfR\frac{SSR}{df_R}
  • MST = SSTdfT\frac{SST}{df_T}

# 期望

  • E[MSE]=σ2E[MSE] = \sigma^2
  • E[MSR]=σ2+β12i(XiXˉ)2E[MSR] = \sigma^2 + \beta_1^2\sum_i(X_i - \bar X)^2

# F 检验

F 检验用于检验回归模型是否显著,即检验零假设 H0:β1=0H_0: \beta_1 = 0

  • 检验统计量F=MSRMSEF^* = \frac{MSR}{MSE}
  • 分布:在 H0H_0 成立时,FF^* 服从自由度为 (1,n2)(1, n-2)FF 分布。

注意:此 F 检验与使用 tt 检验对 β1=0\beta_1=0 进行的检验是等价的,因为当 dfR=1df_R=1 时,T2=FT^2 = F

# 广义线性检验 (GLT)

广义线性检验提供了一种通用的框架来比较嵌套模型(full model & reduced model)。

  • 检验统计量F=SSE(R)SSE(F)dfERdfEFSSE(F)dfEFF = \frac{\frac{SSE(R) - SSE(F)}{df_{ER} - df_{EF}}}{\frac{SSE(F)}{df_{EF}}}
  • 分布:该统计量服从自由度为 (dfERdfEF,dfEF)(df_{ER} - df_{EF}, df_{EF})FF 分布。

注意:对于简单线性回归中的 F 检验,广义线性检验的结果是完全一致的。


# 相关系数与决定系数

# Pearson 相关系数

Pearson 相关系数 rr 用于衡量两个变量之间的线性相关性强度。

r=i(XiXˉ)(YiYˉ)i(XiXˉ)2i(YiYˉ)2r = \frac{\sum_i(X_i - \bar X)(Y_i - \bar Y)}{\sqrt{\sum_i(X_i - \bar X)^2}\sqrt{\sum_i(Y_i - \bar Y)^2}}

它等于预测值 Y^\hat Y 与观测值 YY 之间的相关系数 rY^,Yr_{\hat Y,Y},并且可以通过回归系数 b1b_1 表示:r=b1σXσYr = b_1\frac{\sigma_X}{\sigma_Y}

# 决定系数 R2R^2

决定系数 R2R^2 用于衡量模型对因变量变异的解释程度,其值介于 0011 之间。

R2=1SSESSTR^2 = 1 - \frac{SSE}{SST}

R2R^2 在简单线性回归中等于 Pearson 相关系数的平方,R2=r2R^2 = r^2