← 返回第3章导航

3.2 Outliers

异常值知识点总结 - 掌握异常值识别和数据清洗方法

核心概念总结

1. 异常值的定义与分类

异常值是偏离数据整体模式的极端值,分为两类:

  • 合理异常值:真实存在的极端观测值
  • 异常点(Anomalies):由于错误、误记录或测量误差产生的错误数据

核心判断公式

基于四分位数(IQR)

\[\text{异常值} > Q_3 + k \times \text{IQR} \quad \text{或} \quad \text{异常值} < Q_1 - k \times \text{IQR}\]

其中 \( k \) 通常为 1.5

基于均值与标准差

\[\text{异常值} > \bar{x} + k\sigma \quad \text{或} \quad \text{异常值} < \bar{x} - k\sigma\]

其中 \( k \) 通常为 2

2. 两种方法的比较

IQR方法

  • 优点:不受极端值影响,更稳健
  • 适用:数据分布偏斜或存在极端值

均值±标准差方法

  • 优点:计算简单,易于理解
  • 适用:数据近似正态分布

识别步骤

基于四分位数的方法

  • 步骤1:计算 \( Q_1 \)、\( Q_3 \) 和 \( \text{IQR} = Q_3 - Q_1 \)
  • 步骤2:确定系数 \( k \)(通常为1.5)
  • 步骤3:计算异常值界限:\( Q_1 - k \times \text{IQR} \) 和 \( Q_3 + k \times \text{IQR} \)
  • 步骤4:检查数据中是否有值超出界限

基于均值与标准差的方法

  • 步骤1:计算均值 \( \bar{x} \) 和标准差 \( \sigma \)
  • 步骤2:确定系数 \( k \)(通常为2)
  • 步骤3:计算异常值界限:\( \bar{x} - k\sigma \) 和 \( \bar{x} + k\sigma \)
  • 步骤4:检查数据中是否有值超出界限

数据清洗策略

1. 异常值处理原则

保留:如果异常值是合理的真实观测值

移除:如果异常值是明显的错误或异常点

调查:如果不确定,需要进一步调查数据来源

2. 常见异常值来源

  • 测量错误:仪器故障、人为错误
  • 记录错误:数据录入错误、单位错误
  • 样本错误:不属于目标群体的数据
  • 真实极端值:罕见的真实观测值

3. 数据清洗后的影响

移除异常值后需要重新计算:

  • 均值、中位数、众数
  • 标准差、方差
  • 四分位数、极差
  • 其他相关统计量

应用技巧

1. 选择合适的方法

  • 数据偏斜或存在极端值 → 使用IQR方法
  • 数据近似正态分布 → 使用均值±标准差方法
  • 题目明确指定方法 → 按题目要求执行

2. 常见错误避免

  • 忘记检查题目给定的系数 \( k \)
  • 混淆IQR和四分位距的概念
  • 计算错误导致界限值错误
  • 盲目移除所有异常值而不考虑合理性

3. 实际应用建议

  • 异常值识别是数据分析的重要步骤
  • 需要结合领域知识判断异常值的合理性
  • 数据清洗后要重新评估分析结果
  • 保留异常值处理的记录和理由
3.2 Outliers - 知识点总结 ← 返回第3章导航

3.2 Outliers

异常值知识点总结 - 掌握异常值识别和数据清洗方法

核心概念总结

1. 异常值的定义与分类

异常值是偏离数据整体模式的极端值,分为两类:

  • 合理异常值:真实存在的极端观测值
  • 异常点(Anomalies):由于错误、误记录或测量误差产生的错误数据

核心判断公式

基于四分位数(IQR)

\[\text{异常值} > Q_3 + k \times \text{IQR} \quad \text{或} \quad \text{异常值} < Q_1 - k \times \text{IQR}\]

其中 \( k \) 通常为 1.5

基于均值与标准差

\[\text{异常值} > \bar{x} + k\sigma \quad \text{或} \quad \text{异常值} < \bar{x} - k\sigma\]

其中 \( k \) 通常为 2

2. 两种方法的比较

IQR方法

  • 优点:不受极端值影响,更稳健
  • 适用:数据分布偏斜或存在极端值

均值±标准差方法

  • 优点:计算简单,易于理解
  • 适用:数据近似正态分布

识别步骤

基于四分位数的方法

  • 步骤1:计算 \( Q_1 \)、\( Q_3 \) 和 \( \text{IQR} = Q_3 - Q_1 \)
  • 步骤2:确定系数 \( k \)(通常为1.5)
  • 步骤3:计算异常值界限:\( Q_1 - k \times \text{IQR} \) 和 \( Q_3 + k \times \text{IQR} \)
  • 步骤4:检查数据中是否有值超出界限

基于均值与标准差的方法

  • 步骤1:计算均值 \( \bar{x} \) 和标准差 \( \sigma \)
  • 步骤2:确定系数 \( k \)(通常为2)
  • 步骤3:计算异常值界限:\( \bar{x} - k\sigma \) 和 \( \bar{x} + k\sigma \)
  • 步骤4:检查数据中是否有值超出界限

数据清洗策略

1. 异常值处理原则

保留:如果异常值是合理的真实观测值

移除:如果异常值是明显的错误或异常点

调查:如果不确定,需要进一步调查数据来源

2. 常见异常值来源

  • 测量错误:仪器故障、人为错误
  • 记录错误:数据录入错误、单位错误
  • 样本错误:不属于目标群体的数据
  • 真实极端值:罕见的真实观测值

3. 数据清洗后的影响

移除异常值后需要重新计算:

  • 均值、中位数、众数
  • 标准差、方差
  • 四分位数、极差
  • 其他相关统计量

应用技巧

1. 选择合适的方法

  • 数据偏斜或存在极端值 → 使用IQR方法
  • 数据近似正态分布 → 使用均值±标准差方法
  • 题目明确指定方法 → 按题目要求执行

2. 常见错误避免

  • 忘记检查题目给定的系数 \( k \)
  • 混淆IQR和四分位距的概念
  • 计算错误导致界限值错误
  • 盲目移除所有异常值而不考虑合理性

3. 实际应用建议

  • 异常值识别是数据分析的重要步骤
  • 需要结合领域知识判断异常值的合理性
  • 数据清洗后要重新评估分析结果
  • 保留异常值处理的记录和理由