← 返回第3章导航

3.6 Comparing Data

数据比较 - 掌握多组数据对比分析的方法

一、核心知识点

数据比较的基本原则

在比较数据集时,需关注位置度量(如均值、中位数)和离散度量(如标准差、四分位距)。

  • 若数据含极端值,优先用中位数和四分位距
  • 无极端值时,可用均值和标准差
  • 注意:不可混合使用(如中位数与标准差、均值与四分位距)

度量选择策略

  • 位置度量选择
    • 有极端值:使用中位数
    • 无极端值:使用均值
  • 离散度量选择
    • 有极端值:使用四分位距(IQR)
    • 无极端值:使用标准差
  • 一致性原则:确保比较的统计量类型一致

度量选择对照表

数据特征 位置度量 离散度量 适用场景
有极端值 中位数 四分位距 收入、房价等
无极端值 均值 标准差 身高、体重等
对称分布 均值 = 中位数 标准差 ≈ IQR/1.35 正态分布数据

二、例题

Example 10

The daily mean temperature (°C) during August is recorded at London Heathrow Airport and Dubai International Airport.

For London Heathrow, \( \Sigma x = 562.0 \) and \( \Sigma x^2 = 10301.2 \)

a) Calculate the mean and standard deviation for London Heathrow.

For Dubai International, the mean temperature was 31 °C with a standard deviation of 1.35 °C.

b) Compare the data for the two airports using the information given.

解答

a) 伦敦希思罗机场统计量计算

八月有31天,故\( n = 31 \)

均值和标准差公式

\[ \bar{x} = \frac{\Sigma x}{n}, \quad \sigma = \sqrt{\frac{\Sigma x^2}{n} - \left(\frac{\Sigma x}{n}\right)^2} \]

  • 均值:\( \bar{x} = \frac{562.0}{31} \approx 18.1 \, ^\circ\text{C} \)(3位有效数字)
  • 标准差:\( \sigma = \sqrt{\frac{10301.2}{31} - \left( \frac{562.0}{31} \right)^2} \approx 1.91 \, ^\circ\text{C} \)(3位有效数字)

b) 两机场数据对比

  • 位置度量:迪拜国际机场平均气温(31 °C)显著高于伦敦希思罗机场(18.1 °C)
  • 离散度量:迪拜气温标准差(1.35 °C)低于伦敦(1.91 °C),说明迪拜八月气温更稳定,伦敦气温波动更大