Chapter 3 数据表示 - 公式表

Representations of Data - 数据可视化与分析的数学工具

3.1 直方图 (Histograms)

核心概念

直方图用于展示分组连续数据,条形面积与频率成正比,纵轴为频率密度。

公式名称 公式 变量说明 应用场景
频率密度 \(\text{频率密度} = \frac{\text{频率}}{\text{组宽}}\) 频率:该组的观测值个数
组宽:组的上界与下界之差
计算直方图纵轴刻度,处理不等组距数据
区间频数估算 \(\text{频数} = \text{频率密度} \times \text{组宽}\) 频数:区间内观测值个数
频率密度:该组的频率密度
组宽:区间宽度
通过面积计算某区间内的频数
组宽计算 \(\text{组宽} = \text{上界} - \text{下界}\) 上界:组的最大值
下界:组的最小值
确定组的宽度,用于频率密度计算

3.2 异常值 (Outliers)

核心概念

异常值是偏离数据整体模式的极端值,可通过四分位距或标准差方法识别。

公式名称 公式 变量说明 应用场景
IQR异常值判断 \(\text{数值} > Q_3 + k(Q_3 - Q_1)\)

\(\text{数值} < Q_1 - k(Q_3 - Q_1)\)
Q₁:下四分位数
Q₃:上四分位数
k:倍数(通常为1.5)
基于四分位距识别异常值,适用于大多数数据
标准差异常值判断 \(\text{数值} > \bar{x} + k\sigma\)

\(\text{数值} < \bar{x} - k\sigma\)
\(\bar{x}\):样本均值
σ:标准差
k:倍数(通常为2)
基于均值和标准差识别异常值,适用于正态分布
四分位距 \(\text{IQR} = Q_3 - Q_1\) Q₁:下四分位数
Q₃:上四分位数
衡量数据离散程度,用于异常值判断

3.3 箱线图 (Box Plots)

核心概念

箱线图展示数据的五个关键特征:最小值、Q₁、中位数、Q₃、最大值,以及异常值。

公式名称 公式 变量说明 应用场景
箱线图须长 \(\text{左须} = Q_1 - 1.5 \times \text{IQR}\)
\(\text{右须} = Q_3 + 1.5 \times \text{IQR}\)
Q₁:下四分位数
Q₃:上四分位数
IQR:四分位距
确定箱线图须的延伸范围,超出部分为异常值
箱的长度 \(\text{箱长} = Q_3 - Q_1 = \text{IQR}\) Q₁:下四分位数
Q₃:上四分位数
衡量数据离散程度,箱越长数据越分散

3.4 茎叶图 (Stem and Leaf Diagrams)

核心概念

茎叶图将数据拆分为"茎"(高位部分)和"叶"(低位部分),便于数据整理和统计量计算。

公式名称 公式 变量说明 应用场景
数据重构 \(\text{原始数据} = \text{茎} \times 10^n + \text{叶}\) :数据的高位部分
:数据的低位部分
n:叶的位数
从茎叶图还原原始数据值
Key表示法 \(\text{Key}: \text{茎} \mid \text{叶} = \text{原始值}\) :茎的示例值
:叶的示例值
原始值:组合后的完整数值
说明茎叶图的数据解读方法

3.5 偏度 (Skewness)

核心概念

偏度描述数据分布的对称性,通过位置度量的关系和偏度公式来判断分布形状。

公式名称 公式 变量说明 应用场景
偏度公式 \(\text{偏度} = \frac{3(\text{均值} - \text{中位数})}{\text{标准差}}\) 均值:样本均值
中位数:样本中位数
标准差:样本标准差
定量判断数据偏度:0为对称,正为正偏,负为负偏
四分位数偏度判断 \(\text{正偏}:Q_2 - Q_1 < Q_3 - Q_2\)
\(\text{负偏}:Q_2 - Q_1 > Q_3 - Q_2\)
\(\text{对称}:Q_2 - Q_1 = Q_3 - Q_2\)
Q₁:下四分位数
Q₂:中位数
Q₃:上四分位数
通过箱线图判断偏度,直观且简便
位置度量偏度判断 \(\text{正偏}:\text{众数} < \text{中位数} < \text{均值}\)
\(\text{负偏}:\text{众数} > \text{中位数} > \text{均值}\)
\(\text{对称}:\text{众数} = \text{中位数} = \text{均值}\)
众数:出现频率最高的值
中位数:中间位置的值
均值:算术平均值
通过三个位置度量的大小关系判断偏度

3.6 数据比较 (Comparing Data)

核心概念

数据比较需要同时分析位置度量和离散度量,根据数据特征选择合适的统计量。

公式名称 公式 变量说明 应用场景
位置度量选择 \(\text{有极端值}:\text{使用中位数}\)
\(\text{无极端值}:\text{使用均值}\)
极端值:异常值或离群点
中位数:不受极端值影响
均值:受极端值影响较大
根据数据特征选择合适的位置度量
离散度量选择 \(\text{有极端值}:\text{使用四分位距}\)
\(\text{无极端值}:\text{使用标准差}\)
四分位距:IQR = Q₃ - Q₁
标准差:σ = √(Σ(x-μ)²/n)
根据数据特征选择合适的离散度量
一致性原则 \(\text{中位数} \leftrightarrow \text{四分位距}\)
\(\text{均值} \leftrightarrow \text{标准差}\)
:配对使用
不可混合:中位数与标准差、均值与四分位距
确保比较的统计量类型一致,避免错误结论

数据表示方法对比

图表类型 适用数据类型 主要用途 关键特征
茎叶图 2-3位有效数字的离散数据 数据整理、分布形状展示、统计量计算 保留原始数据,便于计算四分位数、中位数
直方图 分组连续数据 分布形状展示、频率估算 面积与频率成正比,纵轴为频率密度
箱线图 任何数值数据 数据对比、异常值识别、分布形状判断 展示五个关键特征,便于多组数据对比
频率多边形 分组连续数据 分布趋势展示 连接直方图条形顶端中点形成的折线