5.2 线性回归
黑白打印版
点击浏览器的打印按钮或使用快捷键 Ctrl+P (Windows) / Cmd+P (Mac) 进行打印
黑白打印版
线性回归是一种统计方法,用于建模和分析两个或多个变量之间的线性关系。在简单线性回归中,我们研究一个自变量(x)和一个因变量(y)之间的关系。
最小二乘回归线是指使得实际观测值与预测值之间的平方误差和最小的直线。
y对x的回归方程通常表示为:
其中:
斜率b表示自变量x每增加1个单位时,因变量y平均增加的量。斜率的符号表明变量间关系的方向:
使用回归方程进行预测时,预测的可靠性取决于:
注意:外推预测(预测范围超出原始数据范围)通常不可靠,因为变量间的关系可能不再保持线性。
计算回归系数需要以下公式:
其中:
\(\bar{x}\)是x的平均值,\(\bar{y}\)是y的平均值
| 中文关键词 | 英文对应 | 解释 |
|---|---|---|
| 线性回归 | Linear Regression | 分析两个或多个变量之间线性关系的统计方法 |
| 最小二乘回归线 | Least Squares Regression Line | 使得观测值与预测值之间平方误差和最小的直线|
| 斜率 | Slope | 表示自变量每变化一个单位时,因变量平均变化的量 |
| 截距 | Intercept | 当自变量为0时,因变量的预测值 |
| 内插法 | Interpolation | 在原始数据范围内进行预测 |
| 外推法 | Extrapolation | 超出原始数据范围进行预测 |
| 自变量 | Independent Variable | 用于预测的变量,通常用x表示 |
| 因变量 | Dependent Variable | 被预测的变量,通常用y表示 |
某气象站记录了10次观测的风速(x,单位:km/h)和阵风风速(y,单位:km/h)数据。通过计算得到回归方程为:y = 2.5 + 1.3x
问题:
以下数据显示了某种植物的施肥量(x,单位:kg/亩)和产量(y,单位:kg/亩)的关系:
| 施肥量(x) | 产量(y) |
|---|---|
| 10 | 450 |
| 15 | 520 |
| 20 | 580 |
| 25 | 630 |
| 30 | 670 |
已知产量对施肥量的回归方程为:y = 360 + 10.5x
问题:
以下数据显示了某地区10名学生的学习时间(小时)和考试成绩:
| 学习时间(h) | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
|---|---|---|---|---|---|---|---|---|---|---|
| 考试成绩 | 56 | 62 | 68 | 71 | 75 | 79 | 83 | 87 | 90 | 94 |
已知成绩对时间的回归方程为:\[y = 50 + 4x\]
请回答以下问题:
1. 解释斜率的含义
2. 根据回归方程,预测学习时间为12小时的学生的考试成绩
3. 评论这个预测的可靠性
下表显示了某公司每月的广告支出(千元)和销售额(万元)数据:
| 广告支出(千元) | 销售额(万元) |
|---|---|
| 10 | 12 |
| 15 | 18 |
| 20 | 22 |
| 25 | 26 |
| 30 | 30 |
请回答以下问题:
1. 计算销售额对广告支出的回归线方程
2. 解释斜率的含义
3. 如果公司计划在一个月内投入22千元的广告费用,预测销售额