其他位置度量 - 四分位数、百分位数与插值法
定义:将数据分为四等份的三个分位点,分别是:
定义:将数据分为100等份的99个分位点,第\(p\)百分位数(\(P_p\))表示约\(p\%\)的数据小于它,\((100-p)\%\)的数据大于它。
适用场景:当数据以分组频率表呈现时,通过假设组内数据均匀分布,估计中位数、四分位数、百分位数。
关键步骤:
题目 | Question:20名员工的通勤距离(km):1,3,3,3,4,4,6,7,7,7,9,10,11,11,12,13,14,16,18,23,求中位数和四分位数。| The commuting distances (km) of 20 employees are: 1,3,3,3,4,4,6,7,7,7,9,10,11,11,12,13,14,16,18,23. Find the median and quartiles.
中位数(\(Q_2\)):位置\(\frac{20+1}{2}=10.5\),取第10和11个数据(7和9)的平均值,即\(\frac{7+9}{2}=8\)。
下四分位数(\(Q_1\)):位置\(\frac{20}{4}=5\),取第5和6个数据(4和4)的平均值,即\(4\)。
上四分位数(\(Q_3\)):位置\(\frac{3×20}{4}=15\),取第15和16个数据(12和13)的平均值,即\(\frac{12+13}{2}=12.5\)。
题目:学生每日上网时间分组表如下,估计上四分位数和第10百分位数。
| 上网时间(分钟) | 30-31 | 32-33 | 34-36 | 37-39 |
|---|---|---|---|---|
| 频率 | 2 | 25 | 30 | 13 |
累计频率:2, 27, 57, 70。
a 上四分位数(\(Q_3\)):位置\(\frac{3×70}{4}=52.5\),落在"34-36"组(累计频率27到57)。
组边界33.5~36.5,组宽3,组内位置\(52.5-27=25.5\)。
插值计算:\(Q_3 = 33.5 + \frac{25.5}{30}×3 = 36.05\)。
b 第10百分位数(\(P_{10}\)):位置\(\frac{10×70}{100}=7\),落在"32-33"组(累计频率2到27)。
组边界31.5~33.5,组宽2,组内位置\(7-2=5\)。
插值计算:\(P_{10} = 31.5 + \frac{5}{25}×2 = 31.9\)。
核心要点:其他位置度量的关键是理解四分位数和百分位数的计算:
掌握其他位置度量是描述性统计的重要工具,它为后续的箱线图、异常值检测和统计推断提供了基础。通过练习可以培养数据分析和统计思维。