一、核心知识点
箱线图的组成要素
箱线图是用于展示数据关键特征的图表,包含以下要素:
- 下四分位数(\( Q_1 \)):箱的左端点
- 中位数(\( Q_2 \)):箱内的中线
- 上四分位数(\( Q_3 \)):箱的右端点
- 最大值:右须的端点
- 最小值:左须的端点
- 异常值:用"×"标记的极端值
箱线图的作用
通过箱线图可直观对比多组数据的位置(如中位数)和离散程度(如四分位距)。
- 位置比较:通过中位数位置比较数据的集中趋势
- 离散程度比较:通过箱的长度(IQR)比较数据的分散程度
- 异常值识别:通过"×"标记识别极端值
- 分布形状:通过箱和须的相对位置判断数据分布
二、例题
Example 1
a) Draw a box plot for the data on blood glucose levels of females from Example 3.
- Lower quartile \( Q_1 = 3.2 \)
- Upper quartile \( Q_3 = 4.0 \)
- Median = 3.8
- Outlier = 1.7
- Lowest value (non-outlier) = 2.2
- Highest value = 5.1
b) The blood glucose levels of 30 males are summarised:
- Lower quartile \( Q_1 = 3.6 \)
- Upper quartile \( Q_3 = 4.7 \)
- Median = 4.0
- Lowest value = 1.4
- Highest value = 5.2
- An outlier is defined as \( 1.5 \times \text{IQR} \) above \( Q_3 \) or below \( Q_1 \). Draw a box plot for males on the same diagram as females.
c) Compare the blood glucose levels for males and females.
解答
a) 绘制女性箱线图:
- 箱的左端点为\( Q_1 = 3.2 \),右端点为\( Q_3 = 4.0 \),箱内中线为中位数3.8;
- 左须延伸至非异常最小值2.2,右须延伸至最大值5.1;
- 异常值1.7用"×"标记。
b) 绘制男性箱线图:
- 计算IQR:\( 4.7 - 3.6 = 1.1 \);
- 异常值下限:\( 3.6 - 1.5 \times 1.1 = 1.95 \),故1.4为异常值,左须延伸至1.95;
- 右须延伸至最大值5.2;
- 箱的左端点\( Q_1 = 3.6 \),右端点\( Q_3 = 4.7 \),箱内中线为中位数4.0。
c) 对比男女血糖水平:
- 中位数:女性(3.8)低于男性(4.0),说明男性中位数血糖水平更高;
- 四分位距(IQR):女性(\( 4.0 - 3.2 = 0.8 \))小于男性(\( 4.7 - 3.6 = 1.1 \)),说明女性血糖水平更集中。