Chapter 5 相关与回归

统计学核心公式汇总表 - Correlation and Regression

5.1 散点图 (Scatter Diagrams)

散点图绘制要点

自变量:通常放在x轴(解释变量)
因变量:通常放在y轴(响应变量)
数据点:每对数据(x,y)在图上标记相应位置

相关性类型识别

正相关:数据点呈上升趋势
负相关:数据点呈下降趋势
无相关:数据点随机分布

5.2 线性回归 (Linear Regression)

回归线方程

\[ \hat{y} = a + bx \]
其中:\(a\) = 截距,\(b\) = 斜率

斜率解释

斜率\(b\)表示:当自变量\(x\)每增加1个单位时,因变量\(y\)的平均变化量为\(b\)个单位

预测值计算

\[ \hat{y} = a + bx_0 \]
其中:\(x_0\) = 给定的自变量值

回归线特性

回归直线总是通过点\((\bar{x}, \bar{y})\),即自变量和因变量的平均值点

5.3 最小二乘线性回归计算 (Calculating Least Squares Linear Regression)

目标函数

\[ S = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
最小化残差平方和

斜率计算公式

\[ b = \frac{S_{xy}}{S_{xx}} \]
其中:\(S_{xy}\) = 协方差和,\(S_{xx}\) = x的离均差平方和

截距计算公式

\[ a = \bar{y} - b\bar{x} \]
其中:\(\bar{x}\) = x的平均值,\(\bar{y}\) = y的平均值

Sxx 计算

\[ S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2 \]
等价形式:\(S_{xx} = \sum x_i^2 - \frac{(\sum x_i)^2}{n}\)

Sxy 计算

\[ S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \]
等价形式:\(S_{xy} = \sum x_i y_i - \frac{(\sum x_i)(\sum y_i)}{n}\)

计算步骤

1. 计算样本量 \(n\)

2. 计算 \(\sum x_i\)、\(\sum y_i\)、\(\sum x_i^2\)、\(\sum y_i^2\)、\(\sum x_i y_i\)

3. 计算平均值 \(\bar{x} = \frac{\sum x_i}{n}\)、\(\bar{y} = \frac{\sum y_i}{n}\)

4. 计算 \(S_{xx}\) 和 \(S_{xy}\)

5. 计算斜率 \(b = \frac{S_{xy}}{S_{xx}}\)

6. 计算截距 \(a = \bar{y} - b\bar{x}\)

7. 写出回归方程 \(\hat{y} = a + bx\)

5.4 积矩相关系数 (The Product Moment Correlation Coefficient)

积矩相关系数公式(基于离均差)

\[ r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}} \]
其中:\(S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2\)

积矩相关系数公式(直接计算)

\[ r = \frac{n\sum xy - \sum x \sum y}{\sqrt{S_{xx} \cdot S_{yy}}} \]
其中:\(S_{xx} = n\sum x^2 - (\sum x)^2\),\(S_{yy} = n\sum y^2 - (\sum y)^2\)
这种形式在实际计算中更为常用

相关系数取值范围

r = +1:完全正线性相关
r > 0:正相关
r = 0:无线性相关
r < 0:负相关
r = -1:完全负线性相关

相关系数强度标准

|r| > 0.9:极高相关
0.7 < |r| ≤ 0.9:高度相关
0.5 < |r| ≤ 0.7:中度相关
0.3 < |r| ≤ 0.5:低度相关
|r| ≤ 0.3:极弱相关或无相关

重要概念与适用场景

预测的可靠性

内插法:在原始数据范围内预测,可靠性较高
外推法:在原始数据范围外预测,可靠性较低
影响因素:相关性强度、样本量、预测点位置、数据质量

相关性与因果关系

相关性:描述两个变量之间的关联程度
因果关系:表明一个变量的变化直接导致另一个变量的变化
注意:相关性不等于因果关系

积矩相关系数的局限性

仅衡量线性关系:不适用于非线性关系
受异常值影响:对极端值非常敏感
相关不等于因果:高度相关不意味着因果关系
样本量影响:小样本时不够稳定