← 返回第3章导航

3.4 Stem and Leaf Diagrams

茎叶图知识点总结 - 掌握数据整理与分布展示的关键工具

核心概念总结

1. 茎叶图的定义与作用

茎叶图是将数据按"茎(通常为高位部分)"和"叶(通常为低位部分)"拆分,用于整理2或3位有效数字的数据,可直观展示数据分布形状,便于查找众数、四分位数、中位数等。

  • 数据整理:将原始数据有序排列
  • 分布展示:直观显示数据的分布形状
  • 统计量计算:便于计算四分位数、中位数、众数
  • 数据比较:通过背靠背茎叶图对比两组数据
  • 异常值识别:快速发现极端值

茎叶图结构组成

Stem Leaf Key: \( 1 \mid 4 = 1.4 \)
1 4
2 1 2 4 5
3 2 5 6 6 6 7 7 8 8
4 0 1 2 2 4 5 6 7 7 7 7 8
5 0 1 1 2

2. 茎叶图的关键要素

  • 茎(Stem):通常为数据的高位部分(如十位、百位)
  • 叶(Leaf):通常为数据的低位部分(如个位、小数位)
  • Key:说明茎和叶如何组合成原始数据
  • 排序:叶部分按升序排列

绘制步骤

1. 数据准备

  • 将原始数据按升序排列
  • 确定茎和叶的拆分方式
  • 选择合适的茎叶图类型(普通茎叶图或背靠背茎叶图)

2. 绘制步骤

  • 步骤1:确定茎的范围(从最小值到最大值的高位部分)
  • 步骤2:为每个茎值创建一行
  • 步骤3:将对应的叶值按升序排列在茎的右侧
  • 步骤4:添加Key说明茎和叶的组合方式
  • 步骤5:检查数据的完整性和准确性

3. 背靠背茎叶图

  • 用于比较两组数据
  • 茎在中间,两组数据的叶分别在左右两侧
  • 左侧数据的叶按降序排列,右侧数据的叶按升序排列
  • 便于直观比较两组数据的分布特征

统计量计算

1. 中位数计算

位置公式

  • 奇数个数据:位置 = \( \frac{n+1}{2} \)
  • 偶数个数据:位置 = \( \frac{n}{2} \) 和 \( \frac{n}{2}+1 \),取平均值

2. 四分位数计算

位置公式

  • 下四分位数(\( Q_1 \)):位置 = \( \frac{n}{4} \)
  • 上四分位数(\( Q_3 \)):位置 = \( \frac{3n}{4} \)
  • 如果位置不是整数,取相邻两个值的平均值

3. 众数识别

众数

  • 在茎叶图中出现次数最多的叶值
  • 通过观察叶的重复次数确定
  • 可能有多个众数

异常值识别

1. IQR方法

  • 计算四分位距:\( \text{IQR} = Q_3 - Q_1 \)
  • 异常值下限:\( Q_1 - 1.5 \times \text{IQR} \)
  • 异常值上限:\( Q_3 + 1.5 \times \text{IQR} \)
  • 超出此范围的值被认为是异常值

2. 茎叶图中的异常值

  • 通常出现在茎叶图的两端
  • 与大部分数据明显分离
  • 需要特别标注或说明

比较分析

1. 背靠背茎叶图分析

  • 位置比较:比较两组数据的中心位置
  • 离散程度比较:比较两组数据的分散程度
  • 分布形状比较:比较两组数据的分布形态
  • 异常值比较:比较两组数据中的极端值

2. 实际应用场景

  • 教育研究:比较不同班级或学校的成绩分布
  • 医学研究:比较不同群体的生理指标
  • 质量控制:比较不同批次产品的质量分布
  • 市场分析:比较不同群体的消费行为

常见错误与注意事项

1. 绘制错误

  • 忘记添加Key说明
  • 叶的排列顺序错误(未按升序排列)
  • 茎的范围选择不当
  • 数据遗漏或重复

2. 计算错误

  • 位置计算错误
  • 混淆中位数和四分位数的位置
  • 异常值判断标准应用错误
  • 忽略数据的实际意义

3. 应用建议

  • 结合其他统计图表使用
  • 注意数据的实际背景
  • 谨慎处理异常值
  • 提供清晰的图例和说明