# 回归分析基础概念
术语
- 因变量(Response/Output/Dependent variable): 通常用 表示,是我们希望预测或解释的变量。
- 自变量(Predictor/Input/Independent or Explanatory variable): 通常用 表示,是用于预测或解释因变量的变量。
- 简单回归(Simple Regression): 只有一个自变量 。
- 多元回归(Multiple Regression): 有多个自变量 。
- 多变量回归(Multivariate Regression): 有多个因变量 。
回归模型示例:遗传与随机因素
一个简单的回归模型可以类比于槽球模型:
其中:
- 表示遗传项,代表了共有的、可预测的影响。
- 表示随机项,代表了独立于遗传因素的、不可预测的随机影响。
这个模型说明,一个变量的观测值(如 或 )可以分解为一个可预测的共同部分()和一个随机波动部分()。
# 回归分析的一般步骤
- 问题陈述: 明确要解决的问题和分析的目标。
- 潜在相关变量选择: 识别可能与因变量相关的自变量。
- 数据收集: 收集用于分析的样本数据。
- 模型设定: 根据选定的变量,确定回归模型的函数形式。
- 拟合方法选择: 确定用于估计模型参数的统计方法。
- 模型拟合: 利用数据计算出模型的参数值。
- 模型验证与评估: 检验模型的拟合优度以及参数的显著性等。
- 模型应用: 利用已建立的模型进行预测或解释问题。
# 数据探索性分析 (EDA)
在进行回归分析之前,通常需要对数据进行探索性分析。
1. 统计方法
- 使用
summary
函数查看数据的统计摘要,如均值、中位数、四分位数等。 - 使用其他相关函数进行数字方法分析。
2. 可视化方法
hist
:直方图,用于显示单个变量的分布。plot
:用于绘制多种图形,如概率密度图、散点图、箱线图等,用于观察变量间的关系和分布。pairs
:散点图矩阵,用于同时观察多个变量两两之间的关系。
# 回归系数与回归椭圆
回归系数
简单线性回归方程可以表示为:
其中:
- 分别为 和 的均值。
- 分别为 和 的标准差。
- 为相关系数。
该方程通过标准化的方式展示了因变量和自变量之间的线性关系,其中相关系数 决定了回归直线的斜率。
回归椭圆
回归椭圆面是一种可视化工具,用于描绘两个变量之间的联合概率分布,其长轴和短轴的方向和长度反映了变量之间的相关性。回归线通常穿过这个椭圆的中心。
# 不同的回归方式
因变量类型 | 自变量类型 | 回归分析方法 |
---|---|---|
连续型 | 连续型 | 多重线性回归 |
连续型 | 分类型 | ANOVA(方差分析) |
连续型 | 混合型 | ANCOVA(协方差分析) |
分类型 | - | 逻辑回归 |
离散型 | - | 泊松回归 |