Representations of Data - 数据可视化与分析的数学工具
直方图用于展示分组连续数据,条形面积与频率成正比,纵轴为频率密度。
| 公式名称 | 公式 | 变量说明 | 应用场景 |
|---|---|---|---|
| 频率密度 | \(\text{频率密度} = \frac{\text{频率}}{\text{组宽}}\) |
频率:该组的观测值个数 组宽:组的上界与下界之差 |
计算直方图纵轴刻度,处理不等组距数据 |
| 区间频数估算 | \(\text{频数} = \text{频率密度} \times \text{组宽}\) |
频数:区间内观测值个数 频率密度:该组的频率密度 组宽:区间宽度 |
通过面积计算某区间内的频数 |
| 组宽计算 | \(\text{组宽} = \text{上界} - \text{下界}\) |
上界:组的最大值 下界:组的最小值 |
确定组的宽度,用于频率密度计算 |
异常值是偏离数据整体模式的极端值,可通过四分位距或标准差方法识别。
| 公式名称 | 公式 | 变量说明 | 应用场景 |
|---|---|---|---|
| IQR异常值判断 | \(\text{数值} > Q_3 + k(Q_3 - Q_1)\) 或 \(\text{数值} < Q_1 - k(Q_3 - Q_1)\) |
Q₁:下四分位数 Q₃:上四分位数 k:倍数(通常为1.5) |
基于四分位距识别异常值,适用于大多数数据 |
| 标准差异常值判断 | \(\text{数值} > \bar{x} + k\sigma\) 或 \(\text{数值} < \bar{x} - k\sigma\) |
\(\bar{x}\):样本均值 σ:标准差 k:倍数(通常为2) |
基于均值和标准差识别异常值,适用于正态分布 |
| 四分位距 | \(\text{IQR} = Q_3 - Q_1\) |
Q₁:下四分位数 Q₃:上四分位数 |
衡量数据离散程度,用于异常值判断 |
箱线图展示数据的五个关键特征:最小值、Q₁、中位数、Q₃、最大值,以及异常值。
| 公式名称 | 公式 | 变量说明 | 应用场景 |
|---|---|---|---|
| 箱线图须长 | \(\text{左须} = Q_1 - 1.5 \times \text{IQR}\) \(\text{右须} = Q_3 + 1.5 \times \text{IQR}\) |
Q₁:下四分位数 Q₃:上四分位数 IQR:四分位距 |
确定箱线图须的延伸范围,超出部分为异常值 |
| 箱的长度 | \(\text{箱长} = Q_3 - Q_1 = \text{IQR}\) |
Q₁:下四分位数 Q₃:上四分位数 |
衡量数据离散程度,箱越长数据越分散 |
茎叶图将数据拆分为"茎"(高位部分)和"叶"(低位部分),便于数据整理和统计量计算。
| 公式名称 | 公式 | 变量说明 | 应用场景 |
|---|---|---|---|
| 数据重构 | \(\text{原始数据} = \text{茎} \times 10^n + \text{叶}\) |
茎:数据的高位部分 叶:数据的低位部分 n:叶的位数 |
从茎叶图还原原始数据值 |
| Key表示法 | \(\text{Key}: \text{茎} \mid \text{叶} = \text{原始值}\) |
茎:茎的示例值 叶:叶的示例值 原始值:组合后的完整数值 |
说明茎叶图的数据解读方法 |
偏度描述数据分布的对称性,通过位置度量的关系和偏度公式来判断分布形状。
| 公式名称 | 公式 | 变量说明 | 应用场景 |
|---|---|---|---|
| 偏度公式 | \(\text{偏度} = \frac{3(\text{均值} - \text{中位数})}{\text{标准差}}\) |
均值:样本均值 中位数:样本中位数 标准差:样本标准差 |
定量判断数据偏度:0为对称,正为正偏,负为负偏 |
| 四分位数偏度判断 | \(\text{正偏}:Q_2 - Q_1 < Q_3 - Q_2\) \(\text{负偏}:Q_2 - Q_1 > Q_3 - Q_2\) \(\text{对称}:Q_2 - Q_1 = Q_3 - Q_2\) |
Q₁:下四分位数 Q₂:中位数 Q₃:上四分位数 |
通过箱线图判断偏度,直观且简便 |
| 位置度量偏度判断 | \(\text{正偏}:\text{众数} < \text{中位数} < \text{均值}\) \(\text{负偏}:\text{众数} > \text{中位数} > \text{均值}\) \(\text{对称}:\text{众数} = \text{中位数} = \text{均值}\) |
众数:出现频率最高的值 中位数:中间位置的值 均值:算术平均值 |
通过三个位置度量的大小关系判断偏度 |
数据比较需要同时分析位置度量和离散度量,根据数据特征选择合适的统计量。
| 公式名称 | 公式 | 变量说明 | 应用场景 |
|---|---|---|---|
| 位置度量选择 | \(\text{有极端值}:\text{使用中位数}\) \(\text{无极端值}:\text{使用均值}\) |
极端值:异常值或离群点 中位数:不受极端值影响 均值:受极端值影响较大 |
根据数据特征选择合适的位置度量 |
| 离散度量选择 | \(\text{有极端值}:\text{使用四分位距}\) \(\text{无极端值}:\text{使用标准差}\) |
四分位距:IQR = Q₃ - Q₁ 标准差:σ = √(Σ(x-μ)²/n) |
根据数据特征选择合适的离散度量 |
| 一致性原则 | \(\text{中位数} \leftrightarrow \text{四分位距}\) \(\text{均值} \leftrightarrow \text{标准差}\) |
↔:配对使用 不可混合:中位数与标准差、均值与四分位距 |
确保比较的统计量类型一致,避免错误结论 |
| 图表类型 | 适用数据类型 | 主要用途 | 关键特征 |
|---|---|---|---|
| 茎叶图 | 2-3位有效数字的离散数据 | 数据整理、分布形状展示、统计量计算 | 保留原始数据,便于计算四分位数、中位数 |
| 直方图 | 分组连续数据 | 分布形状展示、频率估算 | 面积与频率成正比,纵轴为频率密度 |
| 箱线图 | 任何数值数据 | 数据对比、异常值识别、分布形状判断 | 展示五个关键特征,便于多组数据对比 |
| 频率多边形 | 分组连续数据 | 分布趋势展示 | 连接直方图条形顶端中点形成的折线 |