← 返回第3章导航

3.5 Skewness

偏度 - 描述数据分布形状的重要指标

一、核心知识点

偏度的定义与作用

偏度用于描述数据集的分布形状,分为三类:

  • 对称分布:数据均匀分布,箱线图中 \( Q_2 - Q_1 = Q_3 - Q_2 \),且 众数 = 中位数 = 均值
  • 正偏(Positive Skew):数据多集中在较低值,右侧有长尾;箱线图中 \( Q_2 - Q_1 < Q_3 - Q_2 \),且 众数 < 中位数 < 均值;偏度公式结果为
  • 负偏(Negative Skew):数据多集中在较高值,左侧有长尾;箱线图中 \( Q_2 - Q_1 > Q_3 - Q_2 \),且 众数 > 中位数 > 均值;偏度公式结果为

判断偏度的方法

  • 箱线图对比四分位数:通过 \( Q_2 - Q_1 \) 与 \( Q_3 - Q_2 \) 的大小关系判断
  • 位置度量关系:比较众数、中位数、均值的大小顺序
  • 偏度公式: \[ \text{偏度} = \frac{3(\text{均值} - \text{中位数})}{\text{标准差}} \]
    • 结果为 \( 0 \):对称分布
    • 结果为:正偏态
    • 结果为:负偏态
    • 偏离 \( 0 \) 越远,偏度越强

二、例题

Example 9

The following stem and leaf diagram shows the scores obtained by a group of students in a test.

学生成绩茎叶图

Score Leaf Key: \( 6 \mid 1 = 61 \)
2 1 2 8 (3)
3 3 4 7 8 9 (5)
4 1 2 3 5 6 7 9 (7)
5 0 2 3 3 5 5 6 8 9 9 (10)
6 1 2 2 3 4 4 5 6 6 8 8 8 9 9 (14)
7 0 2 3 4 5 7 8 9 (8)
8 0 1 4 (3)

The modal value is 68, the mean is 57.46 and the standard deviation is 15.7 for these data.

a) Find the three quartiles for this data set.

b) Calculate the value of \( \frac{3(\text{mean} - \text{median})}{\text{standard deviation}} \) and comment on the skewness.

c) Use two further methods to show that the data are negatively skewed.

解答

a) 计算四分位数

总数据量 \( 3 + 5 + 7 + 10 + 14 + 8 + 3 = 50 \):

  • 下四分位数 \( Q_1 \):位置 \( 50/4 = 12.5 \),取第13项,即 \( 46 \)
  • 中位数 \( Q_2 \):位置 \( 50/2 = 25 \),取第25、26项平均值,即 \( \frac{60 + 60}{2} = 60 \)
  • 上四分位数 \( Q_3 \):位置 \( 3×50/4 = 37.5 \),取第38项,即 \( 69 \)

偏度公式

\[ \text{偏度} = \frac{3(\text{均值} - \text{中位数})}{\text{标准差}} \]

b) 偏度计算

\[ \text{偏度} = \frac{3(57.46 - 60)}{15.7} ≈ \frac{3×(-2.54)}{15.7} ≈ -0.486 \]

结果为负,因此数据呈负偏态

c) 其他两种方法

  • 方法1(四分位数对比):\( Q_3 - Q_2 = 69 - 60 = 9 \),\( Q_2 - Q_1 = 60 - 46 = 14 \),因 \( 9 < 14 \),故负偏
  • 方法2(位置度量关系):均值 \( 57.46 < \) 中位数 \( 60 < \) 众数 \( 68 \),符合"众数 > 中位数 > 均值",故负偏