← 返回第3章导航

3.3 Box Plots

箱线图 - 数据关键特征的可视化表示

一、核心知识点

箱线图的组成要素

箱线图是用于展示数据关键特征的图表,包含以下要素:

  • 下四分位数(\( Q_1 \)):箱的左端点
  • 中位数(\( Q_2 \)):箱内的中线
  • 上四分位数(\( Q_3 \)):箱的右端点
  • 最大值:右须的端点
  • 最小值:左须的端点
  • 异常值:用"×"标记的极端值

箱线图的作用

通过箱线图可直观对比多组数据的位置(如中位数)和离散程度(如四分位距)。

  • 位置比较:通过中位数位置比较数据的集中趋势
  • 离散程度比较:通过箱的长度(IQR)比较数据的分散程度
  • 异常值识别:通过"×"标记识别极端值
  • 分布形状:通过箱和须的相对位置判断数据分布

箱线图结构示意

箱线图结构示意图

二、例题

Example 1

a) Draw a box plot for the data on blood glucose levels of females from Example 3.

  • Lower quartile \( Q_1 = 3.2 \)
  • Upper quartile \( Q_3 = 4.0 \)
  • Median = 3.8
  • Outlier = 1.7
  • Lowest value (non-outlier) = 2.2
  • Highest value = 5.1

b) The blood glucose levels of 30 males are summarised:

  • Lower quartile \( Q_1 = 3.6 \)
  • Upper quartile \( Q_3 = 4.7 \)
  • Median = 4.0
  • Lowest value = 1.4
  • Highest value = 5.2
  • An outlier is defined as \( 1.5 \times \text{IQR} \) above \( Q_3 \) or below \( Q_1 \). Draw a box plot for males on the same diagram as females.

c) Compare the blood glucose levels for males and females.

解答

a) 绘制女性箱线图

  • 箱的左端点为\( Q_1 = 3.2 \),右端点为\( Q_3 = 4.0 \),箱内中线为中位数3.8;
  • 左须延伸至非异常最小值2.2,右须延伸至最大值5.1;
  • 异常值1.7用"×"标记。

b) 绘制男性箱线图

  • 计算IQR:\( 4.7 - 3.6 = 1.1 \);
  • 异常值下限:\( 3.6 - 1.5 \times 1.1 = 1.95 \),故1.4为异常值,左须延伸至1.95;
  • 右须延伸至最大值5.2;
  • 箱的左端点\( Q_1 = 3.6 \),右端点\( Q_3 = 4.7 \),箱内中线为中位数4.0。

c) 对比男女血糖水平

  • 中位数:女性(3.8)低于男性(4.0),说明男性中位数血糖水平更高;
  • 四分位距(IQR):女性(\( 4.0 - 3.2 = 0.8 \))小于男性(\( 4.7 - 3.6 = 1.1 \)),说明女性血糖水平更集中。