异常值知识点总结 - 掌握异常值识别和数据清洗方法
异常值是偏离数据整体模式的极端值,分为两类:
基于四分位数(IQR):
\[\text{异常值} > Q_3 + k \times \text{IQR} \quad \text{或} \quad \text{异常值} < Q_1 - k \times \text{IQR}\]
其中 \( k \) 通常为 1.5
基于均值与标准差:
\[\text{异常值} > \bar{x} + k\sigma \quad \text{或} \quad \text{异常值} < \bar{x} - k\sigma\]
其中 \( k \) 通常为 2
IQR方法:
均值±标准差方法:
保留:如果异常值是合理的真实观测值
移除:如果异常值是明显的错误或异常点
调查:如果不确定,需要进一步调查数据来源
移除异常值后需要重新计算: