← 返回2.3导航

2.3 Other Measures of Location

其他位置度量 - 四分位数、百分位数与插值法

一、核心知识点

1. 四分位数(Quartiles)

定义:将数据分为四等份的三个分位点,分别是:

  • 下四分位数(\(Q_1\)):数据的第25百分位数,约25%的数据小于它。
  • 中位数(\(Q_2\)):数据的第50百分位数,约50%的数据小于它。
  • 上四分位数(\(Q_3\)):数据的第75百分位数,约75%的数据小于它。

2. 离散数据的四分位数计算规则

  • \(Q_1\) 位置:\(\frac{n}{4}\)。若结果为整数,取该位置与下一个位置数据的平均值;若为非整数,向上取整取对应位置数据。
  • \(Q_2\) 位置:\(\frac{n}{2}\),计算方法同中位数。
  • \(Q_3\) 位置:\(\frac{3n}{4}\),计算方法同\(Q_1\)。

3. 百分位数(Percentiles)

定义:将数据分为100等份的99个分位点,第\(p\)百分位数(\(P_p\))表示约\(p\%\)的数据小于它,\((100-p)\%\)的数据大于它。

4. 分组连续数据的插值法(Interpolation)

适用场景:当数据以分组频率表呈现时,通过假设组内数据均匀分布,估计中位数、四分位数、百分位数。

关键步骤

  1. 计算累计频率,确定目标分位数所在的组。
  2. 利用组边界、组内累计频率占比,通过比例关系计算估计值。
\[ \text{估计值} = \text{组下限} + \frac{\text{目标位置}-\text{前一组累计频率}}{\text{本组频率}} × \text{组宽} \]

二、例题

例题1:离散数据的四分位数 | Example 1: Quartiles for Discrete Data

题目 | Question:20名员工的通勤距离(km):1,3,3,3,4,4,6,7,7,7,9,10,11,11,12,13,14,16,18,23,求中位数和四分位数。| The commuting distances (km) of 20 employees are: 1,3,3,3,4,4,6,7,7,7,9,10,11,11,12,13,14,16,18,23. Find the median and quartiles.

解答

中位数(\(Q_2\)):位置\(\frac{20+1}{2}=10.5\),取第10和11个数据(7和9)的平均值,即\(\frac{7+9}{2}=8\)。

下四分位数(\(Q_1\)):位置\(\frac{20}{4}=5\),取第5和6个数据(4和4)的平均值,即\(4\)。

上四分位数(\(Q_3\)):位置\(\frac{3×20}{4}=15\),取第15和16个数据(12和13)的平均值,即\(\frac{12+13}{2}=12.5\)。

例题2:分组数据的插值法 | Example 2: Interpolation for Grouped Data

题目:学生每日上网时间分组表如下,估计上四分位数和第10百分位数。

上网时间(分钟) 30-31 32-33 34-36 37-39
频率 2 25 30 13

解答

累计频率:2, 27, 57, 70。

a 上四分位数(\(Q_3\)):位置\(\frac{3×70}{4}=52.5\),落在"34-36"组(累计频率27到57)。

组边界33.5~36.5,组宽3,组内位置\(52.5-27=25.5\)。

插值计算:\(Q_3 = 33.5 + \frac{25.5}{30}×3 = 36.05\)。

b 第10百分位数(\(P_{10}\)):位置\(\frac{10×70}{100}=7\),落在"32-33"组(累计频率2到27)。

组边界31.5~33.5,组宽2,组内位置\(7-2=5\)。

插值计算:\(P_{10} = 31.5 + \frac{5}{25}×2 = 31.9\)。

三、课堂练习

练习题

  1. 珀斯气压数据:16天日平均气压(hPa):1024,1022,1021,1013,1009,1018,1017,1024,1027,1029,1031,1025,1017,1019,1017,1014。
    a. 求中位数
    b. 求四分位数
  2. 学生藏书数量频率表:
    a. 求四分位数
    b. 解释结果含义
  3. 酒店电梯故障次数分组表:
    a. 用插值法估计中位数
    b. 解释计算过程

总结

核心要点:其他位置度量的关键是理解四分位数和百分位数的计算:

  • 四分位数将数据分为四等份,反映数据的分布特征;
  • 百分位数提供更精细的数据位置信息;
  • 插值法适用于分组数据,假设组内均匀分布;
  • 离散数据用位置公式,分组数据用插值公式;
  • 累计频率是确定分位数位置的关键。
学习价值

掌握其他位置度量是描述性统计的重要工具,它为后续的箱线图、异常值检测和统计推断提供了基础。通过练习可以培养数据分析和统计思维。