3.2 Outliers - 知识点总结

核心概念总结

1. 异常值的定义与分类

异常值是偏离数据整体模式的极端值，分为两类：

合理异常值：真实存在的极端观测值
异常点（Anomalies）：由于错误、误记录或测量误差产生的错误数据

核心判断公式

基于四分位数（IQR）：

\[\text{异常值} > Q_3 + k \times \text{IQR} \quad \text{或} \quad \text{异常值} < Q_1 - k \times \text{IQR}\]

其中 \( k \) 通常为 1.5

基于均值与标准差：

\[\text{异常值} > \bar{x} + k\sigma \quad \text{或} \quad \text{异常值} < \bar{x} - k\sigma\]

其中 \( k \) 通常为 2

2. 两种方法的比较

IQR方法：

优点：不受极端值影响，更稳健
适用：数据分布偏斜或存在极端值

均值±标准差方法：

优点：计算简单，易于理解
适用：数据近似正态分布

识别步骤

基于四分位数的方法

步骤1：计算 \( Q_1 \)、\( Q_3 \) 和 \( \text{IQR} = Q_3 - Q_1 \)
步骤2：确定系数 \( k \)（通常为1.5）
步骤3：计算异常值界限：\( Q_1 - k \times \text{IQR} \) 和 \( Q_3 + k \times \text{IQR} \)
步骤4：检查数据中是否有值超出界限

基于均值与标准差的方法

步骤1：计算均值 \( \bar{x} \) 和标准差 \( \sigma \)
步骤2：确定系数 \( k \)（通常为2）
步骤3：计算异常值界限：\( \bar{x} - k\sigma \) 和 \( \bar{x} + k\sigma \)
步骤4：检查数据中是否有值超出界限

数据清洗策略

1. 异常值处理原则

保留：如果异常值是合理的真实观测值

移除：如果异常值是明显的错误或异常点

调查：如果不确定，需要进一步调查数据来源

2. 常见异常值来源

测量错误：仪器故障、人为错误
记录错误：数据录入错误、单位错误
样本错误：不属于目标群体的数据
真实极端值：罕见的真实观测值

3. 数据清洗后的影响

移除异常值后需要重新计算：

均值、中位数、众数
标准差、方差
四分位数、极差
其他相关统计量

应用技巧

1. 选择合适的方法

数据偏斜或存在极端值 → 使用IQR方法
数据近似正态分布 → 使用均值±标准差方法
题目明确指定方法 → 按题目要求执行

2. 常见错误避免

忘记检查题目给定的系数 \( k \)
混淆IQR和四分位距的概念
计算错误导致界限值错误
盲目移除所有异常值而不考虑合理性

3. 实际应用建议

异常值识别是数据分析的重要步骤
需要结合领域知识判断异常值的合理性
数据清洗后要重新评估分析结果
保留异常值处理的记录和理由