积矩相关系数
积矩相关系数(通常用符号 r 表示)是两个变量之间协方差与它们标准差乘积的比值。它测量的是两个变量之间线性关系的方向和强度。
The product moment correlation coefficient (usually denoted by symbol r) is the ratio of the covariance between two variables to the product of their standard deviations. It measures the direction and strength of the linear relationship between two variables.
积矩相关系数只衡量线性关系,不衡量非线性关系。即使 r = 0,两个变量之间仍可能存在非线性关系。
公式 1:基于离均差的形式
\[r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}}\]
其中:
\[S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\]
\[S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2\]
\[S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2\]
\(\bar{x}\) 和 \(\bar{y}\) 分别是变量 x 和 y 的平均值,n 是样本量。
公式 2:直接计算形式
\[r = \frac{n\sum xy - \sum x \sum y}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}\]
这种形式在实际计算中更为常用,因为它不需要先计算平均值。
计算以下数据的积矩相关系数:
| x | y |
|---|---|
| 1 | 3 |
| 2 | 5 |
| 3 | 7 |
| 4 | 9 |
解答步骤:
| x | y | xy | x² | y² |
|---|---|---|---|---|
| 1 | 3 | 3 | 1 | 9 |
| 2 | 5 | 10 | 4 | 25 |
| 3 | 7 | 21 | 9 | 49 |
| 4 | 9 | 36 | 16 | 81 |
| ∑x=10 | ∑y=24 | ∑xy=70 | ∑x²=30 | ∑y²=164 |
n = 4
分子:4×70 - 10×24 = 280 - 240 = 40
分母部分1:4×30 - 10² = 120 - 100 = 20
分母部分2:4×164 - 24² = 656 - 576 = 80
分母:√(20×80) = √1600 = 40
因此,r = 40/40 = 1
这表明x和y之间存在完全正线性相关关系。
某研究调查了6名学生的学习时间(小时)和考试成绩(分),数据如下:
| 学习时间 (x) | 考试成绩 (y) |
|---|---|
| 2 | 65 |
| 3 | 70 |
| 4 | 78 |
| 5 | 82 |
| 6 | 85 |
| 7 | 90 |
计算学习时间和考试成绩之间的积矩相关系数。
解答步骤:
| x | y | xy | x² | y² |
|---|---|---|---|---|
| 2 | 65 | 130 | 4 | 4225 |
| 3 | 70 | 210 | 9 | 4900 |
| 4 | 78 | 312 | 16 | 6084 |
| 5 | 82 | 410 | 25 | 6724 |
| 6 | 85 | 510 | 36 | 7225 |
| 7 | 90 | 630 | 49 | 8100 |
| ∑x=27 | ∑y=470 | ∑xy=2192 | ∑x²=139 | ∑y²=37258 |
n = 6
分子:6×2192 - 27×470 = 13152 - 12690 = 462
分母部分1:6×139 - 27² = 834 - 729 = 105
分母部分2:6×37258 - 470² = 223548 - 220900 = 2648
分母:√(105×2648) = √(278040) ≈ 527.3
因此,r ≈ 462/527.3 ≈ 0.876
这表明学习时间和考试成绩之间存在高度正相关关系。
这些标准只是经验性的指导,在不同研究领域可能有所不同。相关系数的实际意义还需结合具体研究背景和样本量来综合判断。
在使用积矩相关系数时,需要注意以下局限性:
研究发现,冰淇淋销量与溺水事件数量之间存在正相关关系。这是否意味着吃冰淇淋会导致溺水?
实际上,这两个变量之间的相关很可能是由第三个变量——气温引起的。在气温较高的夏季,人们更可能购买冰淇淋,同时也更可能去游泳,从而增加了溺水的风险。这是一个典型的"相关不等于因果"的例子。