# 回归分析基础概念

术语

  • 因变量(Response/Output/Dependent variable): 通常用 YY 表示,是我们希望预测或解释的变量。
  • 自变量(Predictor/Input/Independent or Explanatory variable): 通常用 XX 表示,是用于预测或解释因变量的变量。
  • 简单回归(Simple Regression): 只有一个自变量 YXY \sim X
  • 多元回归(Multiple Regression): 有多个自变量 YX1,...,Xp1Y \sim X_1, ..., X_{p-1}
  • 多变量回归(Multivariate Regression): 有多个因变量 Y1,...,YkX1,...,Xp1Y_1, ..., Y_k \sim X_1, ..., X_{p-1}

回归模型示例:遗传与随机因素

一个简单的回归模型可以类比于槽球模型

F=G+V1S=G+V2F = G + V_1 \\ S = G + V_2

其中:

  • GG 表示遗传项,代表了共有的、可预测的影响。
  • V1,V2V_1, V_2 表示随机项,代表了独立于遗传因素的、不可预测的随机影响。
  • E[G]=PE[G] = P
  • E[V1]=E[V2]=0E[V_1] = E[V_2] = 0
    这个模型说明,一个变量的观测值(如 FFSS)可以分解为一个可预测的共同部分(GG)和一个随机波动部分(VV)。

# 回归分析的一般步骤

  1. 问题陈述: 明确要解决的问题和分析的目标。
  2. 潜在相关变量选择: 识别可能与因变量相关的自变量。
  3. 数据收集: 收集用于分析的样本数据。
  4. 模型设定: 根据选定的变量,确定回归模型的函数形式。
  5. 拟合方法选择: 确定用于估计模型参数的统计方法。
  6. 模型拟合: 利用数据计算出模型的参数值。
  7. 模型验证与评估: 检验模型的拟合优度以及参数的显著性等。
  8. 模型应用: 利用已建立的模型进行预测或解释问题。

# 数据探索性分析 (EDA)

在进行回归分析之前,通常需要对数据进行探索性分析。

1. 统计方法

  • 使用 summary 函数查看数据的统计摘要,如均值、中位数、四分位数等。
  • 使用其他相关函数进行数字方法分析。

2. 可视化方法

  • hist直方图,用于显示单个变量的分布。
  • plot:用于绘制多种图形,如概率密度图散点图箱线图等,用于观察变量间的关系和分布。
  • pairs散点图矩阵,用于同时观察多个变量两两之间的关系。

# 回归系数与回归椭圆

回归系数

简单线性回归方程可以表示为:

yyˉsy=rxxˉsx\frac{y-\bar{y}}{s_y} = r \frac{x-\bar{x}}{s_x}

其中:

  • xˉ,yˉ\bar{x}, \bar{y} 分别为 xxyy 的均值。
  • sx,sys_x, s_y 分别为 xxyy 的标准差。
  • rr相关系数

该方程通过标准化的方式展示了因变量和自变量之间的线性关系,其中相关系数 rr 决定了回归直线的斜率。

回归椭圆

回归椭圆面是一种可视化工具,用于描绘两个变量之间的联合概率分布,其长轴和短轴的方向和长度反映了变量之间的相关性。回归线通常穿过这个椭圆的中心。


# 不同的回归方式

因变量类型 自变量类型 回归分析方法
连续型 连续型 多重线性回归
连续型 分类型 ANOVA(方差分析)
连续型 混合型 ANCOVA(协方差分析)
分类型 - 逻辑回归
离散型 - 泊松回归