Chapter 2 位置与离散程度度量

统计学核心公式汇总表 - Measures of Location and Spread

2.1 数据类型 (Types of Data)

分组频率表相关概念

\[ \text{中点} = \frac{\text{组上限} + \text{组下限}}{2} \]
用于计算分组数据的代表值
\[ \text{类宽} = \text{上类边界} - \text{下类边界} \]
计算分组的宽度

2.2 集中趋势度量 (Measures of Central Tendency)

均值 (Mean)

\[ \bar{x} = \frac{\sum x}{n} \]
其中:\(\sum x\) = 数据和,\(n\) = 数据个数

频率表均值

\[ \bar{x} = \frac{\sum fx}{\sum f} \]
其中:\(f\) = 频率,\(x\) = 数据值

合并均值

\[ \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} \]
其中:\(n_1, n_2\) = 两组数据大小,\(\bar{x}_1, \bar{x}_2\) = 两组均值

中位数位置

\[ \text{位置} = \frac{n + 1}{2} \]
其中:\(n\) = 数据个数

2.3 其他位置度量 (Other Measures of Location)

四分位数位置

\[ Q_1: \frac{n}{4}, \quad Q_2: \frac{n}{2}, \quad Q_3: \frac{3n}{4} \]
其中:\(n\) = 数据个数

百分位数位置

\[ P_p: \frac{p \times n}{100} \]
其中:\(p\) = 百分位数,\(n\) = 数据个数

分组数据插值法

\[ \text{估计值} = \text{组下限} + \frac{\text{目标位置}-\text{前一组累计频率}}{\text{本组频率}} \times \text{组宽} \]
用于估计分组数据的分位数

2.4 离散程度度量 (Measures of Spread)

极差 (Range)

\[ \text{Range} = \text{最大值} - \text{最小值} \]

四分位距 (IQR)

\[ \text{IQR} = Q_3 - Q_1 \]
其中:\(Q_3\) = 上四分位数,\(Q_1\) = 下四分位数

百分位距

\[ \text{百分位距} = P_{upper} - P_{lower} \]
两个给定百分位数的差值

2.5 方差与标准差 (Variance and Standard Deviation)

方差 (Variance)

\[ \sigma^2 = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \]
其中:\(\sum x^2\) = 平方和,\(\sum x\) = 数据和,\(n\) = 数据个数

频率表方差

\[ \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \]
其中:\(f\) = 频率,\(x\) = 数据值或组中值

标准差 (Standard Deviation)

\[ \sigma = \sqrt{\sigma^2} \]
方差的平方根,单位与原始数据一致

2.6 编码 (Coding)

编码公式

\[ y = \frac{x - a}{b} \]
其中:\(a\) = 平移常数,\(b\) = 缩放常数

均值变换

\[ \bar{x} = b\bar{y} + a \]
从编码后均值还原原始均值

标准差变换

\[ \sigma_x = b\sigma_y \]
从编码后标准差还原原始标准差

编码的重要特性

• 平移常数 \(a\) 不影响标准差,只有缩放常数 \(b\) 影响标准差

• 编码可以大大简化计算过程,减少计算错误

• 编码后的统计量可以通过变换公式还原为原始统计量

重要概念与适用场景

集中趋势度量对比

众数:出现频率最高的值,适用于定性数据和寻找典型值
中位数:不受极端值影响,适用于有异常值的数据
均值:利用所有数据信息,适用于正态分布数据

离散程度度量对比

极差:考虑所有数据,但受极端值影响大
四分位距:仅考虑中间50%数据,不受极端值影响
标准差:考虑所有数据,单位与原始数据一致

数据类型处理

原始数据:直接使用基本公式
频率表:使用加权公式
分组数据:使用组中值和插值法