5.2 线性回归

黑白打印版

一、核心知识点

1. 线性回归的基本概念

线性回归是一种统计方法,用于建模和分析两个或多个变量之间的线性关系。在简单线性回归中,我们研究一个自变量(x)和一个因变量(y)之间的关系。

最小二乘回归线是指使得实际观测值与预测值之间的平方误差和最小的直线。

2. 回归线的表示形式

y对x的回归方程通常表示为:

\[y = a + bx\]

其中:

  • y 是因变量的预测值
  • x 是自变量的值
  • a 是截距(当x=0时y的预测值)
  • b 是斜率(x每变化一个单位时,y的平均变化量)

3. 斜率的解释

斜率b表示自变量x每增加1个单位时,因变量y平均增加的量。斜率的符号表明变量间关系的方向:

  • 如果b > 0,两个变量呈正相关关系
  • 如果b < 0,两个变量呈负相关关系
  • 如果b = 0,两个变量之间没有线性关系

4. 预测的可靠性

使用回归方程进行预测时,预测的可靠性取决于:

  • 自变量x的值是否在原始数据的范围内(内插法 vs 外推法)
  • 两个变量之间线性关系的强度
  • 原始数据的变异性

注意:外推预测(预测范围超出原始数据范围)通常不可靠,因为变量间的关系可能不再保持线性。

5. 线性回归的计算

计算回归系数需要以下公式:

\[b = \frac{S_{xy}}{S_{xx}}\]
\[a = \bar{y} - b\bar{x}\]

其中:

\[S_{xx} = \sum(x_i - \bar{x})^2\]
\[S_{xy} = \sum(x_i - \bar{x})(y_i - \bar{y})\]

\(\bar{x}\)是x的平均值,\(\bar{y}\)是y的平均值

二、关键词汇表

使得观测值与预测值之间平方误差和最小的直线
中文关键词 英文对应 解释
线性回归 Linear Regression 分析两个或多个变量之间线性关系的统计方法
最小二乘回归线 Least Squares Regression Line
斜率 Slope 表示自变量每变化一个单位时,因变量平均变化的量
截距 Intercept 当自变量为0时,因变量的预测值
内插法 Interpolation 在原始数据范围内进行预测
外推法 Extrapolation 超出原始数据范围进行预测
自变量 Independent Variable 用于预测的变量,通常用x表示
因变量 Dependent Variable 被预测的变量,通常用y表示

三、例题解析

例题1:风速与阵风关系

某气象站记录了10次观测的风速(x,单位:km/h)和阵风风速(y,单位:km/h)数据。通过计算得到回归方程为:y = 2.5 + 1.3x

问题:

  1. 解释斜率的含义
  2. 当风速为20 km/h时,预测阵风风速
  3. 如果原始数据中风速的范围是10-30 km/h,评论预测风速为35 km/h时阵风风速的可靠性

解答:

  1. 斜率解释: 斜率b = 1.3表示风速每增加1 km/h,阵风风速平均增加1.3 km/h。
  2. 预测计算: 当x = 20 km/h时,阵风风速预测值为:
    y = 2.5 + 1.3 × 20 = 2.5 + 26 = 28.5 km/h
  3. 可靠性分析: 风速35 km/h超出了原始数据范围(10-30 km/h),属于外推预测。外推预测通常不可靠,因为我们无法确定在原始数据范围外,风速与阵风风速之间是否仍然保持相同的线性关系。

例题2:预测可靠性分析

以下数据显示了某种植物的施肥量(x,单位:kg/亩)和产量(y,单位:kg/亩)的关系:

施肥量(x) 产量(y)
10 450
15 520
20 580
25 630
30 670

已知产量对施肥量的回归方程为:y = 360 + 10.5x

问题:

  1. 当施肥量为22 kg/亩时,预测产量
  2. 当施肥量为50 kg/亩时,预测产量并评论可靠性

解答:

  1. 内插预测: 当x = 22 kg/亩时,产量预测值为:
    y = 360 + 10.5 × 22 = 360 + 231 = 591 kg/亩
    由于22 kg/亩在原始数据范围(10-30 kg/亩)内,这个预测是可靠的。
  2. 外推预测: 当x = 50 kg/亩时,产量预测值为:
    y = 360 + 10.5 × 50 = 360 + 525 = 885 kg/亩
    这个预测不可靠,因为:
    • 50 kg/亩远高于原始数据范围
    • 施肥量过高可能导致烧苗,产量不会持续线性增长
    • 超过一定限度后,产量增长可能减缓甚至下降

四、练习题

练习题1

以下数据显示了某地区10名学生的学习时间(小时)和考试成绩:

学习时间(h) 2 3 4 5 6 7 8 9 10 11
考试成绩 56 62 68 71 75 79 83 87 90 94

已知成绩对时间的回归方程为:\[y = 50 + 4x\]

请回答以下问题:

1. 解释斜率的含义

2. 根据回归方程,预测学习时间为12小时的学生的考试成绩

3. 评论这个预测的可靠性

答题区域

练习题2

下表显示了某公司每月的广告支出(千元)和销售额(万元)数据:

广告支出(千元) 销售额(万元)
10 12
15 18
20 22
25 26
30 30

请回答以下问题:

1. 计算销售额对广告支出的回归线方程

2. 解释斜率的含义

3. 如果公司计划在一个月内投入22千元的广告费用,预测销售额

答题区域

五、答案解析

练习题1答案

  1. 斜率解释: 斜率b = 4表示:每增加1小时的学习时间,考试成绩平均提高4分。
  2. 预测计算: 当x = 12小时时:
    \[y = 50 + 4 \times 12 = 50 + 48 = 98\]分
  3. 可靠性分析:
    • 12小时略高于原始数据中的最大值11小时
    • 这属于轻度外推,预测有一定的可靠性
    • 但需要注意,学习时间与成绩的关系可能在高学习时间下不再保持线性

练习题2答案

  1. 回归线方程计算:
    • \(\bar{x} = (10+15+20+25+30)/5 = 20\)
    • \(\bar{y} = (12+18+22+26+30)/5 = 21.6\)
    • \(S_{xx} = \sum(x_i-20)^2 = 250\)
    • \(S_{xy} = \sum(x_i-20)(y_i-21.6) = 230\)
    • \(b = S_{xy}/S_{xx} = 230/250 = 0.92\)
    • \(a = \bar{y} - b\bar{x} = 21.6 - 0.92×20 = 3.2\)
    • 因此,回归线方程为:\[y = 3.2 + 0.92x\]
  2. 斜率解释: 斜率b = 0.92表示:广告支出每增加1千元,销售额平均增加0.92万元。
  3. 预测计算: 当x = 22千元时:
    \[y = 3.2 + 0.92×22 = 3.2 + 20.24 = 23.44\]万元