离散程度的度量 - 极差、四分位距与百分位距
离散程度的度量:描述数据分散程度的指标,也称为"离散度(dispersion)"或"变异度(variation)"的度量。
特点:考虑所有数据,但受极端值影响大。
其中 \(Q_3\) 为上四分位数,\(Q_1\) 为下四分位数
特点:仅考虑中间50%的数据,不受极端值影响。
定义:两个给定百分位数的差值(如10th到90th百分位距)。
特点:考虑某一区间内的数据(如10th到90th考虑80%数据),不受极端值影响。
题目 | Question:120头非洲丛林象的体重(吨)分组表如下,估计:a 极差;b 四分位距;c 10th到90th百分位距。| The weight (tons) of 120 African forest elephants is grouped as follows. Estimate: a range; b interquartile range; c 10th to 90th percentile range.
| 体重\( m \)(吨) | \( 4.0 \leq m < 4.5 \) | \( 4.5 \leq m < 5.0 \) | \( 5.0 \leq m < 5.5 \) | \( 5.5 \leq m < 6.0 \) | \( 6.0 \leq m < 6.5 \) |
|---|---|---|---|---|---|
| 频率 | 13 | 23 | 31 | 34 | 19 |
a 极差:\( 6.5 - 4.0 = 2.5 \) 吨。
b 四分位距:
累计频率:13, 36, 67, 101, 120。
• \( Q_1 \) 位置:\(\frac{120}{4} = 30\),落在\( 4.5 \leq m < 5.0 \)组,插值得 \( Q_1 \approx 4.87 \) 吨。
• \( Q_3 \) 位置:\(\frac{3×120}{4} = 90\),落在\( 5.5 \leq m < 6.0 \)组,插值得 \( Q_3 \approx 5.84 \) 吨。
• 四分位距:\( 5.84 - 4.87 = 0.97 \) 吨。
c 10th到90th百分位距:
• 10th百分位数位置:\(\frac{10×120}{100} = 12\),落在\( 4.0 \leq m < 4.5 \)组,插值得 \( P_{10} \approx 4.46 \) 吨。
• 90th百分位数位置:\(\frac{90×120}{100} = 108\),落在\( 6.0 \leq m < 6.5 \)组,插值得 \( P_{90} \approx 6.18 \) 吨。
• 百分位距:\( 6.18 - 4.46 = 1.72 \) 吨。
题目:某班级50名学生的数学考试成绩分组表如下:
| 成绩区间 | 60-69 | 70-79 | 80-89 | 90-99 | 100 |
|---|---|---|---|---|---|
| 频数 | 5 | 12 | 18 | 13 | 2 |
求:a 极差;b 四分位距;c 20th到80th百分位距
a 极差:\( 100 - 60 = 40 \) 分
b 四分位距:
累计频率:5, 17, 35, 48, 50
• \( Q_1 \) 位置:\(\frac{50}{4} = 12.5\),落在70-79组(组边界69.5~79.5)
插值计算:\( Q_1 = 69.5 + \frac{12.5-5}{12} \times 10 = 69.5 + 6.25 = 75.75 \) 分
• \( Q_3 \) 位置:\(\frac{3 \times 50}{4} = 37.5\),落在80-89组(组边界79.5~89.5)
插值计算:\( Q_3 = 79.5 + \frac{37.5-17}{18} \times 10 = 79.5 + 11.39 = 90.89 \) 分
• 四分位距:\( 90.89 - 75.75 = 15.14 \) 分
c 20th到80th百分位距:
• \( P_{20} \) 位置:\(\frac{20 \times 50}{100} = 10\),落在70-79组
插值计算:\( P_{20} = 69.5 + \frac{10-5}{12} \times 10 = 69.5 + 4.17 = 73.67 \) 分
• \( P_{80} \) 位置:\(\frac{80 \times 50}{100} = 40\),落在90-99组(组边界89.5~99.5)
插值计算:\( P_{80} = 89.5 + \frac{40-35}{13} \times 10 = 89.5 + 3.85 = 93.35 \) 分
• 百分位距:\( 93.35 - 73.67 = 19.68 \) 分
题目:某工厂生产的产品重量(克)数据如下:
45.2, 47.8, 46.1, 48.5, 45.9, 47.2, 46.8, 48.1, 45.6, 47.5, 46.3, 48.7, 45.4, 47.9, 46.7
求:a 极差;b 四分位距;c 比较极差和四分位距,说明哪个更能反映数据的分散程度
数据排序:45.2, 45.4, 45.6, 45.9, 46.1, 46.3, 46.7, 46.8, 47.2, 47.5, 47.8, 47.9, 48.1, 48.5, 48.7
a 极差:\( 48.7 - 45.2 = 3.5 \) 克
b 四分位距:
数据个数 \( n = 15 \)
• \( Q_1 \) 位置:\(\frac{15}{4} = 3.75\),向上取整第4个数据,\( Q_1 = 45.9 \) 克
• \( Q_3 \) 位置:\(\frac{3 \times 15}{4} = 11.25\),向上取整第12个数据,\( Q_3 = 47.9 \) 克
• 四分位距:\( 47.9 - 45.9 = 2.0 \) 克
c 比较分析:
• 极差:3.5克,考虑了所有数据,包括最大值48.7和最小值45.2
• 四分位距:2.0克,仅考虑中间50%的数据(第4到第12个数据)
• 结论:四分位距更能反映数据的分散程度,因为它不受极端值影响,更能代表大多数产品的重量分布情况。极差可能被个别异常值夸大。
核心要点:离散程度度量的关键是理解不同度量的特点和应用:
掌握离散程度度量是描述性统计的重要工具,它为后续的箱线图、异常值检测和统计推断提供了基础。通过练习可以培养数据分析和统计思维。