# 预测
# 平均响应的预测
对于给定的 Xh,模型预测的平均响应为 μ^h=b0+b1Xh,其真实值为 μh=β0+β1Xh。
- 分布:μ^h 服从正态分布,其均值为 μh,方差为 σ2(n1+SXX(Xh−Xˉ)2)。
- 检验统计量:s(μ^h)μ^h−μh 服从自由度为 n−2 的 t 分布。
- 标准差:s(μ^h)=sn1+SXX(Xh−Xˉ)2。
注意:置信区间的宽度在 X 值的两端较宽,在中心位置较窄,这表明模型在预测中心区域的响应时能力更强。
# 新观测值的预测
对于给定的 Xh,新的观测值 Yh 的预测值为 μ^h。预测误差 dh=Yh−μ^h。
- 分布:d^h 服从正态分布,其均值为 0,方差为 σ2(1+n1+SXX(Xh−Xˉ)2)。
- 检验统计量:s(dh)dh=s(pred)Yh−μ^h 服从自由度为 n−2 的 t 分布。
- 预测标准差:s(pred)=s1+n1+SXX(Xh−Xˉ)2。
注意:
- 平均响应的预测是基于真实的 μh 来推断 μ^h 的分布。
- 新观测值的预测是基于预测的 μ^h 来推断 Yh 的分布,其中包含了模型本身的不确定性以及新观测值本身的随机性。
# 新观测值均值的预测
当有 m 个新观测值在 Xh 处时,其样本均值的预测标准差为:
s(predmean)=sm1+n1+SXX(Xh−Xˉ)2。
# 整个回归线的置信带
整个回归线的置信带(simultaneous confidence band)用于描述整条回归线 μ^x 的置信区间。
- 检验统计量:maxs(μ^x)μ^x−μx 服从 2F2,n−2 分布。
- 置信带区间:[L(x),U(x)]=μ^x±Ws(μ^x)。
- 宽度系数:W=2F1−α,2,n−2。
# 方差分析 (ANOVA)
方差分析用于分解总变异,以评估回归模型对响应变量变异的解释能力。
# 基本量与自由度
总平方和(Total Sum of Squares, SST)被分解为回归平方和(Regression Sum of Squares, SSR)与残差平方和(Error Sum of Squares, SSE)。
- SST = ∑i(Yi−Yˉ)2
- SSE = ∑i(Yi−Y^i)2=∑iei2
- SSR = ∑i(Y^i−Yˉ)2=b12∑i(Xi−Xˉ)2
相应地,自由度也满足可加性:dfT=dfE+dfR。
- dfT(SST 的自由度)= n−1
- dfE(SSE 的自由度)= n−2
- dfR(SSR 的自由度)= 1
均方(Mean Square, MS)为平方和与其自由度的比值:
- MSE = dfESSE
- MSR = dfRSSR
- MST = dfTSST
# 期望
- E[MSE]=σ2
- E[MSR]=σ2+β12∑i(Xi−Xˉ)2
# F 检验
F 检验用于检验回归模型是否显著,即检验零假设 H0:β1=0。
- 检验统计量:F∗=MSEMSR。
- 分布:在 H0 成立时,F∗ 服从自由度为 (1,n−2) 的 F 分布。
注意:此 F 检验与使用 t 检验对 β1=0 进行的检验是等价的,因为当 dfR=1 时,T2=F。
# 广义线性检验 (GLT)
广义线性检验提供了一种通用的框架来比较嵌套模型(full model & reduced model)。
- 检验统计量:F=dfEFSSE(F)dfER−dfEFSSE(R)−SSE(F)。
- 分布:该统计量服从自由度为 (dfER−dfEF,dfEF) 的 F 分布。
注意:对于简单线性回归中的 F 检验,广义线性检验的结果是完全一致的。
# 相关系数与决定系数
# Pearson 相关系数
Pearson 相关系数 r 用于衡量两个变量之间的线性相关性强度。
r=∑i(Xi−Xˉ)2∑i(Yi−Yˉ)2∑i(Xi−Xˉ)(Yi−Yˉ)
它等于预测值 Y^ 与观测值 Y 之间的相关系数 rY^,Y,并且可以通过回归系数 b1 表示:r=b1σYσX。
# 决定系数 R2
决定系数 R2 用于衡量模型对因变量变异的解释程度,其值介于 0 和 1 之间。
R2=1−SSTSSE
R2 在简单线性回归中等于 Pearson 相关系数的平方,R2=r2。