5.2 线性回归 - 教材内容

1. 线性回归的基本概念

线性回归是统计学中一种重要的分析方法，用于研究两个或多个变量之间的线性关系。当散点图显示两个变量之间存在相关性时，我们可以绘制一条最佳拟合直线，这条直线能够最小化每个数据点到直线的垂直距离的平方和。

最小二乘回归线 (Least Squares Regression Line)

最小二乘回归线是通过最小化残差平方和来确定的直线。残差是指实际观测值与回归直线预测值之间的差距。这条回归线能够最好地反映变量之间的线性关系。

线性回归的主要应用包括：

量化变量之间的关系强度和方向
根据一个变量的值预测另一个变量的值
分析变量间的因果关系（在适当条件下）
评估自变量对因变量的影响程度

2. 回归线的表示形式

当我们研究两个变量之间的关系时，需要明确哪个是自变量（解释变量），哪个是因变量（响应变量）。通常，我们用x表示自变量，y表示因变量。

2.1 y对x的回归线

当x为自变量，y为因变量时，回归线的形式为：

y = a + bx

其中：

a 是y轴截距（y-intercept），表示当x=0时，y的预测值
b 是斜率（slope），表示x每变化1个单位时，y的平均变化量

斜率的符号与相关性

斜率b的符号反映了变量之间的相关方向：

如果b > 0，表示x和y正相关，即当x增加时，y倾向于增加
如果b < 0，表示x和y负相关，即当x增加时，y倾向于减少
如果b = 0，表示x和y之间没有线性关系

2.2 x对y的回归线

有时候，研究目的可能需要将y作为自变量，x作为因变量。这时，回归线的形式为：

x = c + dy

其中：

c 是x轴截距
d 是斜率，表示y每变化1个单位时，x的平均变化量

注意事项

y对x的回归线与x对y的回归线通常是不同的。在进行回归分析时，应根据研究目的正确选择自变量和因变量。

例如，如果我们想根据学生的学习时间预测考试成绩，应使用成绩对时间的回归线；如果想估计达到特定成绩需要的学习时间，应使用时间对成绩的回归线。

3. 斜率的解释

斜率是回归分析中最重要的参数之一，它量化了自变量变化对因变量的影响程度。在解释斜率时，需要考虑具体的应用场景和变量单位。

3.1 斜率的一般解释

对于回归方程 y = a + bx，斜率b表示：当自变量x每增加1个单位时，因变量y的平均变化量为b个单位。

3.2 实际应用中的解释

在实际问题中，斜率的解释应该包含具体的变量单位和实际含义。

示例：学习时间与考试成绩

假设我们收集了一组学生的学习时间（小时）和考试成绩数据，建立的回归方程为：成绩 = 40 + 3.5 × 学习时间

这里斜率b = 3.5表示：每增加1小时的学习时间，考试成绩平均提高3.5分。

如果一个学生比另一个学生多学习了5小时，我们可以预测他的成绩平均会高出5 × 3.5 = 17.5分。

示例：风速与阵风关系

研究风速(w)与阵风(g)关系的回归方程为：g = 7.23 + 1.82w

这里斜率b = 1.82表示：当日均风速每增加1节时，日最大阵风平均增加约1.82节。

重要提醒

解释斜率时，务必包含单位，并注意：

斜率描述的是平均变化量，而不是确定性的关系
这种关系只适用于自变量的观测范围内（内插）
相关关系并不一定意味着因果关系

4. 预测的可靠性

使用回归线进行预测时，预测的可靠性取决于多个因素，包括数据的质量、样本量大小、相关性强度以及预测点与观测数据的接近程度等。

4.1 内插法 (Interpolation)

内插法是指使用回归线对自变量x值在原始数据范围内的情况进行预测。这种预测通常较为可靠，因为我们是在观察到的关系范围内进行推断。

4.2 外推法 (Extrapolation)

外推法是指使用回归线对自变量x值在原始数据范围外的情况进行预测。这种预测可靠性较低，应谨慎使用，因为我们不能假设变量之间的关系在观察范围外仍然保持线性。

示例：怀孕期与婴儿头围

研究记录了8名新生儿的怀孕期(x，单位：周)和头围(y，单位：厘米)数据，y对x的回归线方程为：y = 8.91 + 0.624x

预测怀孕39周出生婴儿的头围属于内插法，较为可靠。而预测怀孕30周（早于观察范围）或45周（晚于观察范围）出生婴儿的头围则属于外推法，可靠性较低。

影响预测可靠性的因素

预测可靠性主要受以下因素影响：

相关性强度：相关性越强，预测越准确
样本量：样本量越大，预测通常越可靠
预测点位置：越接近数据中心，预测越可靠
数据质量：异常值少，测量准确，预测更可靠

预测值的计算

对于给定的自变量值x₀，使用回归方程y = a + bx计算预测值：

ŷ = a + bx₀

其中ŷ表示y的预测值。

5. 线性回归的计算

为了计算回归线的系数a和b，我们需要使用以下统计量：

关键统计量

S_xx = Σ(x_i - x̄)²

S_xy = Σ(x_i - x̄)(y_i - ȳ)

其中x̄和ȳ分别是x和y的平均值。

5.1 计算斜率b

b = S_xy / S_xx

5.2 计算截距a

a = ȳ - bx̄

示例计算

以下是某公司每月生产的产品数量和总生产成本数据：

产品数量, n(千件)	生产成本, p(千欧元)
21	40
39	58
48	67
24	45
72	89

计算p对n的回归线方程：

n̄ = (21+39+48+24+72)/5 = 40.8
p̄ = (40+58+67+45+89)/5 = 60.0
S_nn = Σ(n_i - n̄)² = 1785.2
S_np = Σ(n_i - n̄)(p_i - p̄) = 1750.0
b = S_np / S_nn = 1750.0 / 1785.2 ≈ 0.98
a = p̄ - bn̄ = 60.0 - 0.98×40.8 ≈ 21.0
因此，回归线方程为：p = 21.0 + 0.98n

使用统计软件

在实际应用中，我们通常使用统计软件（如Excel、SPSS、R等）来计算回归线系数，这样可以避免繁琐的手工计算并减少错误。

6. 线性回归的应用与局限性

6.1 应用领域

线性回归在多个领域都有广泛应用：

经济学：分析收入与消费的关系，预测经济趋势
教育学：研究学习时间与成绩的关系，评估教学效果
医学：分析药物剂量与疗效的关系，预测疾病发展
工程学：建立输入与输出之间的预测模型
市场研究：分析广告支出与销售额的关系

6.2 局限性

线性回归虽然强大，但也有一些局限性：

只能处理线性关系，无法捕捉非线性关系
对异常值敏感，可能会显著影响回归结果
假设变量之间存在因果关系，但相关性并不等于因果关系
外推预测可靠性低
要求数据满足一定的统计假设（如误差项独立、方差齐性等）

使用线性回归的注意事项

在使用线性回归时，应记住以下几点：

首先通过散点图确认变量间是否存在线性关系
检查数据中的异常值并考虑其影响
谨慎解释结果，避免将相关关系误解为因果关系
限制预测范围在观察数据的范围内
评估模型的拟合效果（如通过相关系数）