5.2 线性回归 - 例题解析

典型例题与详细解题步骤

例题1:风速与阵风关系分析

题目

以下数据显示了英国剑桥附近一个小村庄5月前15天的日均风速(w,单位:节)和日最大阵风(g,单位:节):

w 14 13 13 9 18 18 7 15 10 14 11 9 8 10 7
g 33 37 29 23 43 38 17 30 28 29 29 23 21 28 20

g对w的回归线方程为:\[g = 7.23 + 1.82w\]

a) 描述日均风速和日最大阵风之间的相关性

b) 解释回归线斜率的含义

c) 证明在这种情况下使用线性回归线是合理的

解答a:相关性分析

通过观察数据和回归线方程,我们可以分析相关性:

  • 回归线的斜率b = 1.82 > 0,表明日均风速和日最大阵风之间存在正相关关系
  • 根据数据点分布,当平均风速增加时,最大阵风也倾向于增加
  • 斜率的绝对值较大(1.82),说明这种正相关关系较强

解答b:斜率解释

斜率b = 1.82的含义是:

当日均风速每增加1节时,日最大阵风平均增加约1.82节

更具体地说:

  • 如果日均风速从10节增加到15节(增加5节),则最大阵风平均增加约5 × 1.82 = 9.1节
  • 这个解释包含了具体的单位(节),清楚地表达了变量间的数量关系

解答c:使用线性回归线的合理性

使用线性回归线合理的原因:

  • 数据显示出明显的线性趋势,大多数数据点应该接近回归线
  • 正相关关系在物理上是合理的,因为平均风速越高,通常阵风也会越强
  • 回归线能够较好地捕捉数据中的一般模式
  • 没有明显的非线性模式或异常值表明需要使用更复杂的模型

关键点总结

  • 斜率的符号决定了相关方向(正或负)
  • 解释斜率时必须包含变量单位
  • 斜率表示自变量每变化1单位时,因变量的平均变化量
  • 在解释结果时,应考虑实际背景和专业知识
例题2:预测的可靠性分析

题目

一项研究记录了8名新生儿的怀孕期(x,单位:周)和头围(y,单位:厘米)数据,y对x的回归线方程为:\[y = 8.91 + 0.624x\]

该回归方程用于估计怀孕39周和30周出生的婴儿的头围

a) 评论这些估计的可靠性

b) 解释为什么上述回归方程不适合用来估计头围为31.6厘米的婴儿的怀孕期

解答a:估计可靠性分析

首先,我们需要理解这是关于内插法和外推法的问题:

  • 对于39周的预测
    • 39周是正常的怀孕期长度,很可能在原始数据范围内
    • 这属于内插法预测
    • 预测较为可靠,因为它在观察数据的范围内
    • 计算预测值:y = 8.91 + 0.624 × 39 ≈ 8.91 + 24.34 ≈ 33.25厘米
  • 对于30周的预测
    • 30周明显低于正常怀孕期(约40周)
    • 这可能属于外推法预测(取决于原始数据范围)
    • 预测不太可靠,因为它可能超出了观察数据的范围
    • 胎儿发育在早期和晚期可能有不同的模式,线性关系可能不适用

注意:在实际应用中,我们应首先检查原始数据中怀孕期的实际范围,以确认30周是否真的在范围之外。

解答b:反向预测的不适合性

该回归方程不适合用来估计头围为31.6厘米的婴儿的怀孕期,原因如下:

  • 该回归模型中,自变量是怀孕期x,因变量是头围y
  • 回归模型设计用于根据自变量预测因变量,而不是相反
  • y对x的回归线与x对y的回归线是不同的两条直线
  • 要根据头围预测怀孕期,应该使用x对y的回归线,其形式为x = c + dy
  • 直接从y = 8.91 + 0.624x解出x = (y - 8.91)/0.624得到的结果不是正确的回归线预测

正确方法:计算x对y的回归线 x = c + dy

关键点总结

  • 内插预测(在数据范围内)比外推预测(在数据范围外)更可靠
  • 外推预测应谨慎使用,并明确说明其局限性
  • 回归模型有明确的自变量和因变量,不能随意交换使用
  • 要进行反向预测,需要建立自变量和因变量互换的新回归模型
例题3:弹簧长度与质量关系计算

题目

研究了不同质量的物体悬挂在弹簧上时弹簧的长度,数据如下:

质量(kg), x 2 4 5 7 8
长度(cm), y 33 42 48 56 63

a) 计算y对x的回归线方程

b) 解释斜率的含义

c) 预测当悬挂6kg物体时弹簧的长度

解答a:计算回归线方程

要计算y对x的回归线方程y = a + bx,需要计算以下统计量:

1. 计算平均值:\(\bar{x}\) 和 \(\bar{y}\)

\(\bar{x} = (2 + 4 + 5 + 7 + 8)/5 = 26/5 = 5.2\) kg

\(\bar{y} = (33 + 42 + 48 + 56 + 63)/5 = 242/5 = 48.4\) cm

2. 计算\(S_{xx}\) 和 \(S_{xy}\)

\(S_{xx} = \sum(x_i - \bar{x})^2\)

= (2-5.2)² + (4-5.2)² + (5-5.2)² + (7-5.2)² + (8-5.2)²

= 10.24 + 1.44 + 0.04 + 3.24 + 7.84 = 22.8

\(S_{xy} = \sum(x_i - \bar{x})(y_i - \bar{y})\)

= (2-5.2)(33-48.4) + (4-5.2)(42-48.4) + (5-5.2)(48-48.4) + (7-5.2)(56-48.4) + (8-5.2)(63-48.4)

= (-3.2)(-15.4) + (-1.2)(-6.4) + (-0.2)(-0.4) + (1.8)(7.6) + (2.8)(14.6)

= 49.28 + 7.68 + 0.08 + 13.68 + 40.88 = 111.6

3. 计算斜率b和截距a

\(b = S_{xy} / S_{xx} = 111.6 / 22.8 ≈ 4.89\)

\(a = \bar{y} - b\bar{x} = 48.4 - 4.89 × 5.2 ≈ 48.4 - 25.43 ≈ 22.97\)

因此,回归线方程为:\[y ≈ 23.0 + 4.89x\]

解答b:斜率解释

斜率b ≈ 4.89的含义是:

当悬挂的质量每增加1千克时,弹簧长度平均增加约4.89厘米

这个值在物理上代表了弹簧的劲度系数的倒数,可以用来描述弹簧的弹性特性。

解答c:预测弹簧长度

当质量x = 6kg时:

\[y = 23.0 + 4.89 × 6 ≈ 23.0 + 29.34 ≈ 52.34\] cm

因此,当悬挂6kg物体时,弹簧的预测长度约为52.3厘米。

可靠性分析:6kg在原始数据范围(2kg到8kg)内,因此这是一个内插预测,较为可靠。

关键点总结

  • 计算回归线时,需要先计算平均值,再计算\(S_{xx}\)和\(S_{xy}\)
  • 斜率\(b = S_{xy} / S_{xx}\),截距\(a = \bar{y} - b\bar{x}\)
  • 预测值应在数据范围内以保证可靠性
  • 在物理问题中,斜率通常有明确的物理意义
← 返回章节首页