4.8k4 分钟

# 模型诊断 模型诊断主要通过检查模型的假设条件是否满足,以及数据中是否存在异常点来评估模型的稳健性。 # 偏回归图 (Partial Regression Plots) 偏回归图(又称添加变量图或调整变量图)是评估模型中自变量与因变量关系的重要工具。 作图原理:通过绘制 YYY 对除 XiX_iXi​ 以外的所有自变量进行回归的残差,与 XiX_iXi​ 对除自身以外的所有自变量回归的残差之间的散点图。即 Y∣X−iY|X_{-i}Y∣X−i​ 对 Xi∣X−iX_i|X_{-i}Xi​∣X−i​ 作图。 用途: 直观展示偏相关系数,即在控制其他变量影响后,XiX_iXi​ 与 YYY
3.1k3 分钟

# 关键问题 在模型选择中,有两个关键问题: 子集大小:应该使用多少个解释变量? 变量选择:在给定的子集大小下,应该选择哪些变量? # 模型选择方法 交叉验证(Cross-Validation): 留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV) K 折交叉验证(K-Fold Cross-Validation) 这两种方法适用于数据量不足的情况,通过划分训练集和测试集来验证模型性能。 子集选择(Subset Selection): 洪泛法(Exhaustive Search):当子集大小较小时,可以穷举所有可能的模型组合,选择最优的一个
2.3k2 分钟

# 概念 # 零相关(理想情况) 在理想的零相关(正交)情况下,回归模型中的解释变量彼此独立。 回归系数:每个回归系数由其对应的解释变量唯一确定。 b=(XTX)−1XTY∼N(β, σ2(XTX)−1)b=(X^TX)^{-1}X^TY\sim N(\beta,\ \sigma^2(X^TX)^{-1})b=(XTX)−1XTY∼N(β, σ2(XTX)−1) XTX=diag(∣∣X02∣∣,∣∣X12∣∣,...,∣∣Xp−1∣∣2)X^TX=diag(||X_0^2||,||X_1^2||,...,||X_{p-1}||^2)XTX
3.7k3 分钟

# 额外平方和(Extra Sum of Squares) 定义与示例 额外平方和(SSR)衡量了在模型中已经包含某些变量的情况下,再加入新的变量后,这些新变量所能解释的额外变异。 SSR(X1,X2,X3)SSR(X_1, X_2, X_3)SSR(X1​,X2​,X3​):在模型中,变量 X1,X2,X3X_1, X_2, X_3X1​,X2​,X3​ 联合解释的总变异。 SSR(X1∣X2)SSR(X_1|X_2)SSR(X1​∣X2​):在模型中已包含变量 X2X_2X2​ 的基础上,加入 X1X_1X1​ 后额外解释的变异。 SSR(X1,X2∣X3,X4)SSR(X_1, X_2
2.4k2 分钟

# 数据变换 # 常用方法与考量 数据变换是处理回归模型中非正态性或非恒定方差问题的一种常见方法。 右偏数据(数据集中存在一些非常大的值,拖动了平均值向右)可以通过取平方根、对数或倒数来使其分布更接近对称。 左偏数据(数据集中存在一些非常小的值,拖动了平均值向左)可以通过取平方、立方或更高的幂次来使其分布更接近对称。 # 潜在问题与替代方案 尽管数据变换看似有用,但它也带来一些挑战: 变换后的数据失去了原有的直观解释。例如,对数收入的回归系数不再是每增加一个单位的自变量带来的收入变化。 变换改变了模型的原始假设,例如,误差项的分布可能不再是正态的。 变换后的模型不一定能保证正态性或方差的
4.5k4 分钟

# 多元线性回归模型 多元线性回归模型可以表示为: Y=Xβ+εY=X\beta+\varepsilon Y=Xβ+ε 其中,矩阵和向量的定义如下: YYY 是 n×1n \times 1n×1 的因变量向量:Yn×1=[Y1Y2⋯Yn]TY_{n\times 1}=\begin{bmatrix}Y_1&Y_2&\cdots&Y_{n}\end{bmatrix}^TYn×1​=[Y1​​Y2​​⋯​Yn​​]T XXX 是 n×pn \times pn×p 的自变量矩阵:Xn×p=[1X11X12⋯
4.1k4 分钟

# 诊断 # 解释变量 (XXX) 的诊断 解释变量的诊断旨在识别潜在的混杂因子,并分析其分布特征。 集中趋势与离散程度: 均值、方差、范围。 分布形态: 偏度 (Skewness): 衡量数据分布的对称性。g1=m3m23/2=1n∑i(xi−xˉ)3(1n∑i(xi−xˉ)2)3/2g_1=\frac{m_3}{m_2^{3/2}}=\frac{\frac1n\sum_i(x_i-\bar x)^3}{(\frac1n\sum_i(x_i-\bar x)^2)^{3/2}} g1​=m23
3k3 分钟

# 预测 # 平均响应的预测 对于给定的 XhX_hXh​,模型预测的平均响应为 μ^h=b0+b1Xh\hat\mu_h = b_0 + b_1X_hμ^​h​=b0​+b1​Xh​,其真实值为 μh=β0+β1Xh\mu_h = \beta_0 + \beta_1X_hμh​=β0​+β1​Xh​。 分布:μ^h\hat\mu_hμ^​h​ 服从正态分布,其均值为 μh\mu_hμh​,方差为 σ2(1n+(Xh−Xˉ)2SXX)\sigma^2(\frac{1}{n} + \frac{(X_h - \bar X)^2}{S_{
4.5k4 分钟

# 模型设定与假设 简单线性回归模型(SLR)用于描述一个因变量 YYY 与一个自变量 XXX 之间的线性关系。 模型参数: Yi=β0+β1Xi+εiY_i=\beta_0+\beta_1X_i+\varepsilon_i Yi​=β0​+β1​Xi​+εi​ 其中 β0\beta_0β0​ 是截距,β1\beta_1β1​ 是斜率。 模型假设 (LINE): Linear: 线性关系,即模型形式正确。 Independent: 误差项独立,即 εi\varepsilon_iεi​ 与 εj\varepsilon_jεj​ 相互独立。 Normal:
1.8k2 分钟

# 回归分析基础概念 术语 因变量(Response/Output/Dependent variable): 通常用 YYY 表示,是我们希望预测或解释的变量。 自变量(Predictor/Input/Independent or Explanatory variable): 通常用 XXX 表示,是用于预测或解释因变量的变量。 简单回归(Simple Regression): 只有一个自变量 Y∼XY \sim XY∼X。 多元回归(Multiple Regression): 有多个自变量 Y∼X1,...,Xp−1Y \sim X_1, ...,