5.4 The Product Moment Correlation Coefficient

积矩相关系数

5.4 积矩相关系数

5.4.1 积矩相关系数的概念与意义

在统计学中,积矩相关系数(Product Moment Correlation Coefficient)是一种常用的统计量,用于衡量两个连续变量之间线性关系的强度和方向。它也被称为皮尔逊相关系数(Pearson Correlation Coefficient),以其发明者卡尔·皮尔逊(Karl Pearson)命名。积矩相关系数是统计学分析中最基础也最重要的相关度量之一。

定义 / Definition

积矩相关系数(通常用符号 r 表示)是两个变量之间协方差与它们标准差乘积的比值。它测量的是两个变量之间线性关系的方向和强度。

The product moment correlation coefficient (usually denoted by symbol r) is the ratio of the covariance between two variables to the product of their standard deviations. It measures the direction and strength of the linear relationship between two variables.

积矩相关系数的取值范围在 -1 到 +1 之间,其中:

注意 / Note

积矩相关系数只衡量线性关系,不衡量非线性关系。即使 r = 0,两个变量之间仍可能存在非线性关系。

5.4.2 积矩相关系数的计算

积矩相关系数有多种计算形式,下面介绍两种最常用的计算公式。

公式 1:基于离均差的形式

\[r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}}\]

其中:

\[S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\]

\[S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2\]

\[S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2\]

\(\bar{x}\) 和 \(\bar{y}\) 分别是变量 x 和 y 的平均值,n 是样本量。

公式 2:直接计算形式

\[r = \frac{n\sum xy - \sum x \sum y}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}\]

这种形式在实际计算中更为常用,因为它不需要先计算平均值。

Example 1: 基础计算

计算以下数据的积矩相关系数:

x y
1 3
2 5
3 7
4 9

解答步骤:

  1. 计算必要的总和:
  2. x y xy
    1 3 3 1 9
    2 5 10 4 25
    3 7 21 9 49
    4 9 36 16 81
    ∑x=10 ∑y=24 ∑xy=70 ∑x²=30 ∑y²=164
  3. 代入公式计算:
  4. n = 4

    分子:4×70 - 10×24 = 280 - 240 = 40

    分母部分1:4×30 - 10² = 120 - 100 = 20

    分母部分2:4×164 - 24² = 656 - 576 = 80

    分母:√(20×80) = √1600 = 40

    因此,r = 40/40 = 1

    这表明x和y之间存在完全正线性相关关系。

Example 2: 实际应用

某研究调查了6名学生的学习时间(小时)和考试成绩(分),数据如下:

学习时间 (x) 考试成绩 (y)
2 65
3 70
4 78
5 82
6 85
7 90

计算学习时间和考试成绩之间的积矩相关系数。

解答步骤:

  1. 计算必要的总和:
  2. x y xy
    2 65 130 4 4225
    3 70 210 9 4900
    4 78 312 16 6084
    5 82 410 25 6724
    6 85 510 36 7225
    7 90 630 49 8100
    ∑x=27 ∑y=470 ∑xy=2192 ∑x²=139 ∑y²=37258
  3. 代入公式计算:
  4. n = 6

    分子:6×2192 - 27×470 = 13152 - 12690 = 462

    分母部分1:6×139 - 27² = 834 - 729 = 105

    分母部分2:6×37258 - 470² = 223548 - 220900 = 2648

    分母:√(105×2648) = √(278040) ≈ 527.3

    因此,r ≈ 462/527.3 ≈ 0.876

    这表明学习时间和考试成绩之间存在高度正相关关系。

5.4.3 相关系数的解释与应用

积矩相关系数提供了两个变量之间线性关系的重要信息,但在解释相关系数时需要谨慎。以下是解释相关系数的一些常见标准:

解释说明 / Explanation

这些标准只是经验性的指导,在不同研究领域可能有所不同。相关系数的实际意义还需结合具体研究背景和样本量来综合判断。

积矩相关系数在实际应用中有着广泛的用途:

5.4.4 相关系数的局限性

注意事项 / Limitations

在使用积矩相关系数时,需要注意以下局限性:

  1. 仅衡量线性关系:积矩相关系数只适用于衡量变量之间的线性关系。如果两个变量之间存在非线性关系(如二次函数关系),即使关系很强,相关系数也可能接近零。
  2. 受异常值影响:相关系数对异常值非常敏感。一个极端异常值可能会显著改变相关系数的值。
  3. 相关不等于因果:高度相关并不意味着存在因果关系。两个变量可能相关,但这种关系可能是由第三个变量引起的。
  4. 样本量的影响:样本量较小时,相关系数可能不够稳定,容易受到随机波动的影响。
  5. 范围限制:当变量取值范围受到限制时(截断数据),相关系数可能会低估真实的相关程度。

Example 3: 相关vs因果

研究发现,冰淇淋销量与溺水事件数量之间存在正相关关系。这是否意味着吃冰淇淋会导致溺水?

实际上,这两个变量之间的相关很可能是由第三个变量——气温引起的。在气温较高的夏季,人们更可能购买冰淇淋,同时也更可能去游泳,从而增加了溺水的风险。这是一个典型的"相关不等于因果"的例子。

总结来说,积矩相关系数是一种强大的统计工具,可以帮助我们量化两个连续变量之间的线性关系。但在解释结果时,必须谨慎考虑其局限性,并结合专业知识和研究背景进行综合分析。