5.2 线性回归 (Linear Regression)

深入理解变量间的线性关系和预测模型

1. 线性回归的基本概念

线性回归是统计学中一种重要的分析方法,用于研究两个或多个变量之间的线性关系。当散点图显示两个变量之间存在相关性时,我们可以绘制一条最佳拟合直线,这条直线能够最小化每个数据点到直线的垂直距离的平方和。

最小二乘回归线 (Least Squares Regression Line)

最小二乘回归线是通过最小化残差平方和来确定的直线。残差是指实际观测值与回归直线预测值之间的差距。这条回归线能够最好地反映变量之间的线性关系。

线性回归的主要应用包括:

  • 量化变量之间的关系强度和方向
  • 根据一个变量的值预测另一个变量的值
  • 分析变量间的因果关系(在适当条件下)
  • 评估自变量对因变量的影响程度

2. 回归线的表示形式

当我们研究两个变量之间的关系时,需要明确哪个是自变量(解释变量),哪个是因变量(响应变量)。通常,我们用x表示自变量,y表示因变量。

2.1 y对x的回归线

当x为自变量,y为因变量时,回归线的形式为:

y = a + bx

其中:

  • a 是y轴截距(y-intercept),表示当x=0时,y的预测值
  • b 是斜率(slope),表示x每变化1个单位时,y的平均变化量

斜率的符号与相关性

斜率b的符号反映了变量之间的相关方向:

  • 如果b > 0,表示x和y正相关,即当x增加时,y倾向于增加
  • 如果b < 0,表示x和y负相关,即当x增加时,y倾向于减少
  • 如果b = 0,表示x和y之间没有线性关系

2.2 x对y的回归线

有时候,研究目的可能需要将y作为自变量,x作为因变量。这时,回归线的形式为:

x = c + dy

其中:

  • c 是x轴截距
  • d 是斜率,表示y每变化1个单位时,x的平均变化量

注意事项

y对x的回归线与x对y的回归线通常是不同的。在进行回归分析时,应根据研究目的正确选择自变量和因变量。

例如,如果我们想根据学生的学习时间预测考试成绩,应使用成绩对时间的回归线;如果想估计达到特定成绩需要的学习时间,应使用时间对成绩的回归线。

3. 斜率的解释

斜率是回归分析中最重要的参数之一,它量化了自变量变化对因变量的影响程度。在解释斜率时,需要考虑具体的应用场景和变量单位。

3.1 斜率的一般解释

对于回归方程 y = a + bx,斜率b表示:当自变量x每增加1个单位时,因变量y的平均变化量为b个单位

3.2 实际应用中的解释

在实际问题中,斜率的解释应该包含具体的变量单位和实际含义。

示例:学习时间与考试成绩

假设我们收集了一组学生的学习时间(小时)和考试成绩数据,建立的回归方程为:成绩 = 40 + 3.5 × 学习时间

这里斜率b = 3.5表示:每增加1小时的学习时间,考试成绩平均提高3.5分。

如果一个学生比另一个学生多学习了5小时,我们可以预测他的成绩平均会高出5 × 3.5 = 17.5分。

示例:风速与阵风关系

研究风速(w)与阵风(g)关系的回归方程为:g = 7.23 + 1.82w

这里斜率b = 1.82表示:当日均风速每增加1节时,日最大阵风平均增加约1.82节。

重要提醒

解释斜率时,务必包含单位,并注意:

  • 斜率描述的是平均变化量,而不是确定性的关系
  • 这种关系只适用于自变量的观测范围内(内插)
  • 相关关系并不一定意味着因果关系

4. 预测的可靠性

使用回归线进行预测时,预测的可靠性取决于多个因素,包括数据的质量、样本量大小、相关性强度以及预测点与观测数据的接近程度等。

4.1 内插法 (Interpolation)

内插法是指使用回归线对自变量x值在原始数据范围内的情况进行预测。这种预测通常较为可靠,因为我们是在观察到的关系范围内进行推断。

4.2 外推法 (Extrapolation)

外推法是指使用回归线对自变量x值在原始数据范围外的情况进行预测。这种预测可靠性较低,应谨慎使用,因为我们不能假设变量之间的关系在观察范围外仍然保持线性。

示例:怀孕期与婴儿头围

研究记录了8名新生儿的怀孕期(x,单位:周)和头围(y,单位:厘米)数据,y对x的回归线方程为:y = 8.91 + 0.624x

预测怀孕39周出生婴儿的头围属于内插法,较为可靠。而预测怀孕30周(早于观察范围)或45周(晚于观察范围)出生婴儿的头围则属于外推法,可靠性较低。

影响预测可靠性的因素

预测可靠性主要受以下因素影响:

  • 相关性强度:相关性越强,预测越准确
  • 样本量:样本量越大,预测通常越可靠
  • 预测点位置:越接近数据中心,预测越可靠
  • 数据质量:异常值少,测量准确,预测更可靠

预测值的计算

对于给定的自变量值x0,使用回归方程y = a + bx计算预测值:

ŷ = a + bx0

其中ŷ表示y的预测值。

5. 线性回归的计算

为了计算回归线的系数a和b,我们需要使用以下统计量:

关键统计量

Sxx = Σ(xi - x̄)²

Sxy = Σ(xi - x̄)(yi - ȳ)

其中x̄和ȳ分别是x和y的平均值。

5.1 计算斜率b

b = Sxy / Sxx

5.2 计算截距a

a = ȳ - bx̄

示例计算

以下是某公司每月生产的产品数量和总生产成本数据:

产品数量, n(千件) 生产成本, p(千欧元)
21 40
39 58
48 67
24 45
72 89

计算p对n的回归线方程:

  • n̄ = (21+39+48+24+72)/5 = 40.8
  • p̄ = (40+58+67+45+89)/5 = 60.0
  • Snn = Σ(ni - n̄)² = 1785.2
  • Snp = Σ(ni - n̄)(pi - p̄) = 1750.0
  • b = Snp / Snn = 1750.0 / 1785.2 ≈ 0.98
  • a = p̄ - bn̄ = 60.0 - 0.98×40.8 ≈ 21.0
  • 因此,回归线方程为:p = 21.0 + 0.98n

使用统计软件

在实际应用中,我们通常使用统计软件(如Excel、SPSS、R等)来计算回归线系数,这样可以避免繁琐的手工计算并减少错误。

6. 线性回归的应用与局限性

6.1 应用领域

线性回归在多个领域都有广泛应用:

  • 经济学:分析收入与消费的关系,预测经济趋势
  • 教育学:研究学习时间与成绩的关系,评估教学效果
  • 医学:分析药物剂量与疗效的关系,预测疾病发展
  • 工程学:建立输入与输出之间的预测模型
  • 市场研究:分析广告支出与销售额的关系

6.2 局限性

线性回归虽然强大,但也有一些局限性:

  • 只能处理线性关系,无法捕捉非线性关系
  • 对异常值敏感,可能会显著影响回归结果
  • 假设变量之间存在因果关系,但相关性并不等于因果关系
  • 外推预测可靠性低
  • 要求数据满足一定的统计假设(如误差项独立、方差齐性等)

使用线性回归的注意事项

在使用线性回归时,应记住以下几点:

  1. 首先通过散点图确认变量间是否存在线性关系
  2. 检查数据中的异常值并考虑其影响
  3. 谨慎解释结果,避免将相关关系误解为因果关系
  4. 限制预测范围在观察数据的范围内
  5. 评估模型的拟合效果(如通过相关系数)
← 返回章节首页