核心概念总结
1. 偏度的定义与作用
偏度用于描述数据集的分布形状,是衡量数据分布对称性的重要指标。
- 分布描述:描述数据集的分布形状
- 统计量选择:指导选择合适的统计量
- 数据分析:理解数据的特征和模式
- 模型选择:为统计建模提供参考
- 异常值识别:帮助识别数据中的异常情况
三种分布类型
对称分布
\( Q_2 - Q_1 = Q_3 - Q_2 \)
众数 = 中位数 = 均值
偏度 = 0
正偏(Positive Skew)
\( Q_2 - Q_1 < Q_3 - Q_2 \)
众数 < 中位数 < 均值
偏度 > 0
负偏(Negative Skew)
\( Q_2 - Q_1 > Q_3 - Q_2 \)
众数 > 中位数 > 均值
偏度 < 0
2. 偏度的关键特征
- 对称分布:数据均匀分布,左右对称
- 正偏:数据多集中在较低值,右侧有长尾
- 负偏:数据多集中在较高值,左侧有长尾
- 判断方法:箱线图对比、位置度量关系、偏度公式
判断方法
1. 箱线图对比四分位数
- 计算 \( Q_2 - Q_1 \) 和 \( Q_3 - Q_2 \)
- 如果 \( Q_2 - Q_1 = Q_3 - Q_2 \):对称分布
- 如果 \( Q_2 - Q_1 < Q_3 - Q_2 \):正偏态
- 如果 \( Q_2 - Q_1 > Q_3 - Q_2 \):负偏态
2. 位置度量关系
- 如果 众数 = 中位数 = 均值:对称分布
- 如果 众数 < 中位数 < 均值:正偏态
- 如果 众数 > 中位数 > 均值:负偏态