← 返回2.4导航

2.4 Measures of Spread

离散程度的度量 - 极差、四分位距与百分位距

一、核心知识点

1. 定义

离散程度的度量:描述数据分散程度的指标,也称为"离散度(dispersion)"或"变异度(variation)"的度量。

2. 极差(Range)

\[ \text{Range} = \text{最大值} - \text{最小值} \]

特点:考虑所有数据,但受极端值影响大。

3. 四分位距(Interquartile Range, IQR)

\[ \text{IQR} = Q_3 - Q_1 \]

其中 \(Q_3\) 为上四分位数,\(Q_1\) 为下四分位数

特点:仅考虑中间50%的数据,不受极端值影响。

4. 百分位距(Interpercentile Range)

定义:两个给定百分位数的差值(如10th到90th百分位距)。

特点:考虑某一区间内的数据(如10th到90th考虑80%数据),不受极端值影响。

二、例题

例题1:非洲丛林象体重分组表 | Example 1: African Forest Elephant Weight Grouped Table

题目 | Question:120头非洲丛林象的体重(吨)分组表如下,估计:a 极差;b 四分位距;c 10th到90th百分位距。| The weight (tons) of 120 African forest elephants is grouped as follows. Estimate: a range; b interquartile range; c 10th to 90th percentile range.

体重\( m \)(吨) \( 4.0 \leq m < 4.5 \) \( 4.5 \leq m < 5.0 \) \( 5.0 \leq m < 5.5 \) \( 5.5 \leq m < 6.0 \) \( 6.0 \leq m < 6.5 \)
频率 13 23 31 34 19

解答

a 极差:\( 6.5 - 4.0 = 2.5 \) 吨。

b 四分位距

累计频率:13, 36, 67, 101, 120。

• \( Q_1 \) 位置:\(\frac{120}{4} = 30\),落在\( 4.5 \leq m < 5.0 \)组,插值得 \( Q_1 \approx 4.87 \) 吨。

• \( Q_3 \) 位置:\(\frac{3×120}{4} = 90\),落在\( 5.5 \leq m < 6.0 \)组,插值得 \( Q_3 \approx 5.84 \) 吨。

• 四分位距:\( 5.84 - 4.87 = 0.97 \) 吨。

c 10th到90th百分位距

• 10th百分位数位置:\(\frac{10×120}{100} = 12\),落在\( 4.0 \leq m < 4.5 \)组,插值得 \( P_{10} \approx 4.46 \) 吨。

• 90th百分位数位置:\(\frac{90×120}{100} = 108\),落在\( 6.0 \leq m < 6.5 \)组,插值得 \( P_{90} \approx 6.18 \) 吨。

• 百分位距:\( 6.18 - 4.46 = 1.72 \) 吨。

三、课堂练习解答

练习1:学生考试成绩分组表

题目:某班级50名学生的数学考试成绩分组表如下:

成绩区间 60-69 70-79 80-89 90-99 100
频数 5 12 18 13 2

求:a 极差;b 四分位距;c 20th到80th百分位距

解答过程

a 极差:\( 100 - 60 = 40 \) 分

b 四分位距

累计频率:5, 17, 35, 48, 50

• \( Q_1 \) 位置:\(\frac{50}{4} = 12.5\),落在70-79组(组边界69.5~79.5)

插值计算:\( Q_1 = 69.5 + \frac{12.5-5}{12} \times 10 = 69.5 + 6.25 = 75.75 \) 分

• \( Q_3 \) 位置:\(\frac{3 \times 50}{4} = 37.5\),落在80-89组(组边界79.5~89.5)

插值计算:\( Q_3 = 79.5 + \frac{37.5-17}{18} \times 10 = 79.5 + 11.39 = 90.89 \) 分

• 四分位距:\( 90.89 - 75.75 = 15.14 \) 分

c 20th到80th百分位距

• \( P_{20} \) 位置:\(\frac{20 \times 50}{100} = 10\),落在70-79组

插值计算:\( P_{20} = 69.5 + \frac{10-5}{12} \times 10 = 69.5 + 4.17 = 73.67 \) 分

• \( P_{80} \) 位置:\(\frac{80 \times 50}{100} = 40\),落在90-99组(组边界89.5~99.5)

插值计算:\( P_{80} = 89.5 + \frac{40-35}{13} \times 10 = 89.5 + 3.85 = 93.35 \) 分

• 百分位距:\( 93.35 - 73.67 = 19.68 \) 分

练习2:工厂产品重量数据

题目:某工厂生产的产品重量(克)数据如下:

45.2, 47.8, 46.1, 48.5, 45.9, 47.2, 46.8, 48.1, 45.6, 47.5, 46.3, 48.7, 45.4, 47.9, 46.7

求:a 极差;b 四分位距;c 比较极差和四分位距,说明哪个更能反映数据的分散程度

解答过程

数据排序:45.2, 45.4, 45.6, 45.9, 46.1, 46.3, 46.7, 46.8, 47.2, 47.5, 47.8, 47.9, 48.1, 48.5, 48.7

a 极差:\( 48.7 - 45.2 = 3.5 \) 克

b 四分位距

数据个数 \( n = 15 \)

• \( Q_1 \) 位置:\(\frac{15}{4} = 3.75\),向上取整第4个数据,\( Q_1 = 45.9 \) 克

• \( Q_3 \) 位置:\(\frac{3 \times 15}{4} = 11.25\),向上取整第12个数据,\( Q_3 = 47.9 \) 克

• 四分位距:\( 47.9 - 45.9 = 2.0 \) 克

c 比较分析

• 极差:3.5克,考虑了所有数据,包括最大值48.7和最小值45.2

• 四分位距:2.0克,仅考虑中间50%的数据(第4到第12个数据)

结论:四分位距更能反映数据的分散程度,因为它不受极端值影响,更能代表大多数产品的重量分布情况。极差可能被个别异常值夸大。

总结

核心要点:离散程度度量的关键是理解不同度量的特点和应用:

  • 极差考虑所有数据,但受极端值影响;
  • 四分位距仅考虑中间50%数据,不受极端值影响;
  • 百分位距可灵活选择数据区间,不受极端值影响;
  • 分组数据需要用插值法估计分位数;
  • 选择合适的度量取决于数据特点和问题需求。
学习价值

掌握离散程度度量是描述性统计的重要工具,它为后续的箱线图、异常值检测和统计推断提供了基础。通过练习可以培养数据分析和统计思维。

2.4 Measures of Spread - 教材全解 ← 返回2.4导航

2.4 Measures of Spread

离散程度的度量 - 极差、四分位距与百分位距

一、核心知识点

1. 定义

离散程度的度量:描述数据分散程度的指标,也称为"离散度(dispersion)"或"变异度(variation)"的度量。

2. 极差(Range)

\[ \text{Range} = \text{最大值} - \text{最小值} \]

特点:考虑所有数据,但受极端值影响大。

3. 四分位距(Interquartile Range, IQR)

\[ \text{IQR} = Q_3 - Q_1 \]

其中 \(Q_3\) 为上四分位数,\(Q_1\) 为下四分位数

特点:仅考虑中间50%的数据,不受极端值影响。

4. 百分位距(Interpercentile Range)

定义:两个给定百分位数的差值(如10th到90th百分位距)。

特点:考虑某一区间内的数据(如10th到90th考虑80%数据),不受极端值影响。

二、例题

例题1:非洲丛林象体重分组表 | Example 1: African Forest Elephant Weight Grouped Table

题目 | Question:120头非洲丛林象的体重(吨)分组表如下,估计:a 极差;b 四分位距;c 10th到90th百分位距。| The weight (tons) of 120 African forest elephants is grouped as follows. Estimate: a range; b interquartile range; c 10th to 90th percentile range.

体重\( m \)(吨) \( 4.0 \leq m < 4.5 \) \( 4.5 \leq m < 5.0 \) \( 5.0 \leq m < 5.5 \) \( 5.5 \leq m < 6.0 \) \( 6.0 \leq m < 6.5 \)
频率 13 23 31 34 19

解答

a 极差:\( 6.5 - 4.0 = 2.5 \) 吨。

b 四分位距

累计频率:13, 36, 67, 101, 120。

• \( Q_1 \) 位置:\(\frac{120}{4} = 30\),落在\( 4.5 \leq m < 5.0 \)组,插值得 \( Q_1 \approx 4.87 \) 吨。

• \( Q_3 \) 位置:\(\frac{3×120}{4} = 90\),落在\( 5.5 \leq m < 6.0 \)组,插值得 \( Q_3 \approx 5.84 \) 吨。

• 四分位距:\( 5.84 - 4.87 = 0.97 \) 吨。

c 10th到90th百分位距

• 10th百分位数位置:\(\frac{10×120}{100} = 12\),落在\( 4.0 \leq m < 4.5 \)组,插值得 \( P_{10} \approx 4.46 \) 吨。

• 90th百分位数位置:\(\frac{90×120}{100} = 108\),落在\( 6.0 \leq m < 6.5 \)组,插值得 \( P_{90} \approx 6.18 \) 吨。

• 百分位距:\( 6.18 - 4.46 = 1.72 \) 吨。

三、课堂练习解答

练习1:学生考试成绩分组表

题目:某班级50名学生的数学考试成绩分组表如下:

成绩区间 60-69 70-79 80-89 90-99 100
频数 5 12 18 13 2

求:a 极差;b 四分位距;c 20th到80th百分位距

解答过程

a 极差:\( 100 - 60 = 40 \) 分

b 四分位距

累计频率:5, 17, 35, 48, 50

• \( Q_1 \) 位置:\(\frac{50}{4} = 12.5\),落在70-79组(组边界69.5~79.5)

插值计算:\( Q_1 = 69.5 + \frac{12.5-5}{12} \times 10 = 69.5 + 6.25 = 75.75 \) 分

• \( Q_3 \) 位置:\(\frac{3 \times 50}{4} = 37.5\),落在80-89组(组边界79.5~89.5)

插值计算:\( Q_3 = 79.5 + \frac{37.5-17}{18} \times 10 = 79.5 + 11.39 = 90.89 \) 分

• 四分位距:\( 90.89 - 75.75 = 15.14 \) 分

c 20th到80th百分位距

• \( P_{20} \) 位置:\(\frac{20 \times 50}{100} = 10\),落在70-79组

插值计算:\( P_{20} = 69.5 + \frac{10-5}{12} \times 10 = 69.5 + 4.17 = 73.67 \) 分

• \( P_{80} \) 位置:\(\frac{80 \times 50}{100} = 40\),落在90-99组(组边界89.5~99.5)

插值计算:\( P_{80} = 89.5 + \frac{40-35}{13} \times 10 = 89.5 + 3.85 = 93.35 \) 分

• 百分位距:\( 93.35 - 73.67 = 19.68 \) 分

练习2:工厂产品重量数据

题目:某工厂生产的产品重量(克)数据如下:

45.2, 47.8, 46.1, 48.5, 45.9, 47.2, 46.8, 48.1, 45.6, 47.5, 46.3, 48.7, 45.4, 47.9, 46.7

求:a 极差;b 四分位距;c 比较极差和四分位距,说明哪个更能反映数据的分散程度

解答过程

数据排序:45.2, 45.4, 45.6, 45.9, 46.1, 46.3, 46.7, 46.8, 47.2, 47.5, 47.8, 47.9, 48.1, 48.5, 48.7

a 极差:\( 48.7 - 45.2 = 3.5 \) 克

b 四分位距

数据个数 \( n = 15 \)

• \( Q_1 \) 位置:\(\frac{15}{4} = 3.75\),向上取整第4个数据,\( Q_1 = 45.9 \) 克

• \( Q_3 \) 位置:\(\frac{3 \times 15}{4} = 11.25\),向上取整第12个数据,\( Q_3 = 47.9 \) 克

• 四分位距:\( 47.9 - 45.9 = 2.0 \) 克

c 比较分析

• 极差:3.5克,考虑了所有数据,包括最大值48.7和最小值45.2

• 四分位距:2.0克,仅考虑中间50%的数据(第4到第12个数据)

结论:四分位距更能反映数据的分散程度,因为它不受极端值影响,更能代表大多数产品的重量分布情况。极差可能被个别异常值夸大。

总结

核心要点:离散程度度量的关键是理解不同度量的特点和应用:

  • 极差考虑所有数据,但受极端值影响;
  • 四分位距仅考虑中间50%数据,不受极端值影响;
  • 百分位距可灵活选择数据区间,不受极端值影响;
  • 分组数据需要用插值法估计分位数;
  • 选择合适的度量取决于数据特点和问题需求。
学习价值

掌握离散程度度量是描述性统计的重要工具,它为后续的箱线图、异常值检测和统计推断提供了基础。通过练习可以培养数据分析和统计思维。