← 返回第3章导航

Chapter Review 3

第3章复习 - Representations of Data 数据表示

Chapter 3 核心知识点总结

第3章学习目标

  • 数据表示:掌握茎叶图、直方图、箱线图的绘制和解读
  • 异常值识别:学会使用IQR方法识别和处理异常值
  • 偏度分析:理解数据分布形状,掌握偏度判断方法
  • 数据比较:学会多组数据的对比分析技巧

1. 数据表示方法

茎叶图

Stem and Leaf Diagrams

拆分数据为"茎"和"叶"

直方图

Histograms

面积与频率成正比

箱线图

Box Plots

展示四分位数和异常值

茎叶图(Stem and Leaf Diagrams)

  • 拆分数据为"茎"(高位)和"叶"(低位)
  • 直观展示分布形状,可计算四分位数、中位数、众数
  • 背靠背茎叶图用于对比两组数据

直方图(Histograms)

  • 展示分组连续数据
  • 条形面积与频率成正比
  • 纵轴为频率密度(频率密度=频率/组宽)
  • 连接条形顶端中点形成频率多边形

箱线图(Box Plots)

  • 展示下四分位数(\( Q_1 \))、中位数(\( Q_2 \))、上四分位数(\( Q_3 \))
  • 显示最大值、最小值及异常值
  • 用于对比两组数据的位置和离散程度

2. 异常值(Outliers)

异常值定义与判断

  • 定义:偏离数据整体模式的极端值
  • 判断方法:数值 \( > Q_3 + k(Q_3 - Q_1) \) 或 \( < Q_1 - k(Q_3 - Q_1) \)
  • k值:通常为1.5
  • 数据清洗:移除异常值的过程

3. 偏度(Skewness)

偏度类型与判断方法

  • 对称分布:众数=中位数=均值
  • 正偏(右偏):众数<中位数<均值
  • 负偏(左偏):众数>中位数>均值

判断方法

  • 四分位数对比:\( Q_2 - Q_1 \) 与 \( Q_3 - Q_2 \) 的大小
  • 位置度量关系:众数、中位数、均值的顺序
  • 偏度公式:\( \frac{3(\text{均值} - \text{中位数})}{\text{标准差}} \)
  • 值为0时对称,正为正偏,负为负偏

4. 数据比较

数据比较原则

  • 同时分析位置度量(均值、中位数)和离散度量(标准差、四分位距)
  • 注意不可混合使用(如中位数与标准差、均值与四分位距)
  • 根据数据特征选择合适的统计量