5.2 线性回归 - 练习题

巩固知识,提升应用能力

💡 做题技巧

基础练习题

练习题1 简单

以下数据显示了某地区10名学生的学习时间(小时)和考试成绩:

学习时间(h) 2 3 4 5 6 7 8 9 10 11
考试成绩 56 62 68 71 75 79 83 87 90 94

a) 如果成绩对时间的回归方程为\[y = 50 + 4x\],请解释斜率的含义

b) 根据回归方程,预测学习时间为12小时的学生的考试成绩

c) 评论这个预测的可靠性

答案

a) 斜率b = 4表示:每增加1小时的学习时间,考试成绩平均提高4分。

b) 当x = 12小时时:

\[y = 50 + 4 × 12 = 50 + 48 = 98\]分

c) 可靠性分析:

  • 12小时略高于原始数据中的最大值11小时
  • 这属于轻度外推,预测有一定的可靠性
  • 但需要注意,学习时间与成绩的关系可能在高学习时间下不再保持线性

练习题2 简单

一项研究调查了汽车行驶速度(km/h)和燃油消耗率(L/100km)的关系,得到回归方程:\[\text{燃油消耗率} = 5 + 0.05 \times \text{速度}\]

a) 解释方程中各系数的含义

b) 预测速度为80 km/h时的燃油消耗率

c) 如果两辆汽车的行驶速度相差20 km/h,预测它们的燃油消耗率相差多少?

答案

a) 系数解释:

  • 截距5表示当速度为0 km/h时的基础燃油消耗率(即怠速油耗)
  • 斜率0.05表示速度每增加1 km/h,燃油消耗率平均增加0.05 L/100km

b) 当速度为80 km/h时:

\[\text{燃油消耗率} = 5 + 0.05 \times 80 = 5 + 4 = 9\] L/100km

c) 速度相差20 km/h时的燃油消耗率差异:

\[\text{差异} = 0.05 \times 20 = 1\] L/100km
中级练习题

练习题3 中等

下表显示了某公司每月的广告支出(千元)和销售额(万元)数据:

广告支出(千元) 销售额(万元)
10 12
15 18
20 22
25 26
30 30

a) 计算销售额对广告支出的回归线方程

b) 解释斜率的含义

c) 如果公司计划在一个月内投入22千元的广告费用,预测销售额

答案

a) 计算回归线方程y = a + bx:

计算步骤:

  • \(\bar{x} = (10+15+20+25+30)/5 = 20\)
  • \(\bar{y} = (12+18+22+26+30)/5 = 21.6\)
  • \(S_{xx} = \sum(x_i-20)^2 = 250\)
  • \(S_{xy} = \sum(x_i-20)(y_i-21.6) = 230\)
  • \(b = S_{xy}/S_{xx} = 230/250 = 0.92\)
  • \(a = \bar{y} - b\bar{x} = 21.6 - 0.92×20 = 21.6 - 18.4 = 3.2\)
回归线方程:\[y = 3.2 + 0.92x\]

b) 斜率b = 0.92表示:广告支出每增加1千元,销售额平均增加0.92万元。

c) 当广告支出x = 22千元时:

\[y = 3.2 + 0.92×22 = 3.2 + 20.24 = 23.44\]万元

练习题4 中等

一位研究人员记录了7名儿童的年龄(岁)和体重(千克)数据,得到回归方程:\[\text{体重} = 3.5 + 2.8 \times \text{年龄}\]

a) 预测一个5岁儿童的体重

b) 如果原始数据中儿童的年龄范围是2-8岁,评论预测一个12岁儿童体重的可靠性

c) 解释为什么不能使用这个回归方程预测体重为30千克的儿童的年龄

答案

a) 当年龄x = 5岁时:

\[\text{体重} = 3.5 + 2.8 \times 5 = 3.5 + 14 = 17.5\]千克

b) 预测12岁儿童体重的可靠性分析:

  • 12岁远高于原始数据范围(2-8岁)
  • 这是严重的外推预测
  • 儿童的体重增长在青春期可能会加速,不再保持线性关系
  • 因此,这个预测不可靠

c) 不能反向预测的原因:

  • 该回归模型中,自变量是年龄,因变量是体重
  • 回归模型设计用于根据自变量预测因变量
  • y对x的回归线与x对y的回归线是不同的
  • 要根据体重预测年龄,需要计算x对y的回归线
高级练习题

练习题5 困难

下表显示了某工厂生产的产品数量(百件)和生产总成本(千元)数据:

产品数量(百件) 1 2 3 4 5
生产成本(千元) 12 18 23 27 32

a) 计算生产成本对产品数量的回归线方程

b) 解释截距和斜率的经济含义

c) 工厂计划在下个月生产600件产品,预测生产成本

d) 计算生产一件产品的平均可变成本

答案

a) 计算回归线方程y = a + bx:

计算步骤:

  • \(\bar{x} = (1+2+3+4+5)/5 = 3\)
  • \(\bar{y} = (12+18+23+27+32)/5 = 22.4\)
  • \(S_{xx} = \sum(x_i-3)^2 = 10\)
  • \(S_{xy} = \sum(x_i-3)(y_i-22.4) = 49\)
  • \(b = S_{xy}/S_{xx} = 49/10 = 4.9\)
  • \(a = \bar{y} - b\bar{x} = 22.4 - 4.9×3 = 22.4 - 14.7 = 7.7\)
回归线方程:\[y = 7.7 + 4.9x\]

b) 经济含义:

  • 截距a = 7.7千元表示固定成本,即不生产任何产品时的基本成本
  • 斜率b = 4.9千元/百件表示可变成本率,即每生产100件产品增加的成本

c) 当生产600件产品(即x = 6百件)时:

\[y = 7.7 + 4.9×6 = 7.7 + 29.4 = 37.1\]千元

d) 生产一件产品的平均可变成本:

\[\text{平均可变成本} = 4.9\text{千元/百件} ÷ 100 = 0.049\text{千元/件} = 49\text{元/件}\]

练习题6 困难

某研究机构分析了城市人口密度(千人/平方公里)和空气质量指数(AQI)的关系,得到回归方程:\[AQI = 25 + 3.2 \times \text{人口密度}\]

a) 解释这个回归模型的意义

b) 如果两个城市的人口密度相差5千人/平方公里,预测它们的AQI差异

c) 该研究的数据来源于人口密度在10-50千人/平方公里的城市。评论使用该方程预测以下城市AQI的可靠性:

i. 人口密度为35千人/平方公里的城市

ii. 人口密度为80千人/平方公里的城市

d) 从这个回归方程,我们能否得出结论:人口密度增加导致空气质量恶化?为什么?

答案

a) 回归模型的意义:

  • 该模型表明城市人口密度与空气质量指数之间存在正相关关系
  • 人口密度越高,空气质量指数越高(即空气质量越差)
  • 可以用于预测不同人口密度城市的空气质量情况

b) 人口密度相差5千人/平方公里时的AQI差异:

\[AQI\text{差异} = 3.2 \times 5 = 16\]

c) 预测可靠性分析:

  • i. 35千人/平方公里在原始数据范围内(10-50),属于内插预测,可靠
  • ii. 80千人/平方公里远高于原始数据范围,属于严重外推,不可靠

d) 关于因果关系的结论:

  • 不能直接得出人口密度增加导致空气质量恶化的结论
  • 回归分析只能显示变量间的相关关系,不能证明因果关系
  • 可能存在其他变量(如工业排放、交通流量等)同时影响人口密度和空气质量
  • 要证明因果关系,需要进行控制实验或更复杂的统计分析
← 返回章节首页