统计学中的位置与离散程度度量(含编码)
定义:数据中出现频率最高的数值或组别。
例题:Example 4(衬衫领围尺寸),领围\( 16.5 \)的频率最高(34),故众数为\( 16.5 \)。
定义:数据排序后位于中间位置的数值。
例题:Example 4(衬衫领围尺寸),总频数95,中间位置第48位对应领围16;Example 6(员工通勤距离),20个数据的中位数是第10.5位,即\( \frac{7+9}{2}=8 \) km。
定义:算术平均值,公式\( \bar{x} = \frac{\sum x}{n} \)。
例题:Example 9(测试分数),7名学生分数和为36,均值\( \bar{x} = \frac{36}{7} \approx 5.14 \);Example 3(合并均值),25个观测均值6.4,30个观测均值7.2,总均值\( \bar{x} = \frac{25×6.4 + 30×7.2}{25+30} \approx 6.84 \)。
定义:频率表数据的均值公式\( \bar{x} = \frac{\sum xf}{\sum f} \)(\( x \)为数据值,\( f \)为频率)。
例题:Example 4(衬衫领围尺寸),计算得均值\( \bar{x} = \frac{1537.5}{95} = 16.2 \);Example 10(午餐外出时长),均值\( \bar{x} = \frac{3082}{83} \approx 37.13 \) 分钟。
定义:数据第25%位置的数值,计算方法:\( n/4 \),整数则取中间值,否则向上取整。
例题:Example 6(员工通勤距离),\( n=20 \),\( Q_1 \)位置\( 20/4=5 \),取第5、6位数据(4和4)的平均值,\( Q_1=4 \) km。
定义:数据第75%位置的数值,计算方法:\( 3n/4 \),整数则取中间值,否则向上取整。
例题:Example 6(员工通勤距离),\( n=20 \),\( Q_3 \)位置\( 3×20/4=15 \),取第15、16位数据(12和13)的平均值,\( Q_3=12.5 \) km。
定义:最大值与最小值的差,公式\( \text{Range} = \text{最大值} - \text{最小值} \)。
例题:Example 8(非洲象体重),体重范围\( 4.0 \leq m < 6.5 \),故极差\( = 6.5 - 4.0=2.5 \) 吨。
定义:上四分位数与下四分位数的差,公式\( \text{IQR} = Q_3 - Q_1 \)。
例题:Example 8(非洲象体重),\( Q_3≈5.84 \) 吨,\( Q_1≈4.87 \) 吨,IQR\( = 5.84 - 4.87=0.97 \) 吨。
定义:两个给定百分位数的差值(如10th到90th百分位距)。
例题:Example 8(非洲象体重),10th百分位数≈4.46吨,90th百分位数≈6.18吨,百分位距\( = 6.18 - 4.46=1.72 \) 吨。
定义:衡量数据分散程度,公式\( \sigma^2 = \frac{\sum (x-\bar{x})^2}{n} = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \);频率表数据公式为\( \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \)。
例题:Example 9(测试分数),方差\( \sigma^2 = \frac{218}{7} - \left( \frac{36}{7} \right)^2 \approx 4.69 \);Example 10(午餐外出时长),方差\( \sigma^2 = \frac{114504}{83} - \left( \frac{3082}{83} \right)^2 \approx 0.741 \)。
定义:方差的平方根,公式\( \sigma = \sqrt{\text{方差}} \)。
例题:Example 9(测试分数),标准差\( \sigma = \sqrt{4.69} \approx 2.17 \);Example 11(通话时长),标准差\( \sigma \approx 11.4 \) 分钟。
定义:分组频率表中用组中值代替数据,按频率表公式计算。
例题:Example 11(通话时长),通过组中值计算得标准差≈11.4分钟;Example 14(通话时长编码),编码后还原得标准差≈11.35分钟。
定义:通过\( y = \frac{x - a}{b} \)简化计算,均值变换\( \bar{y} = \frac{\bar{x} - a}{b} \implies \bar{x} = b\bar{y} + a \),标准差变换\( \sigma_y = \frac{\sigma_x}{b} \implies \sigma_x = b\sigma_y \)。
例题:Example 12(核反应堆温度),编码\( y = \frac{x - 300}{10} \),还原得原始均值330℃,标准差17.2℃;Example 13(阵风数据),编码\( h = \frac{g - 5}{10} \),还原得原始均值25 knots,标准差8.45 knots。
定义:组A(\( n_1, \bar{x}_1 \))与组B(\( n_2, \bar{x}_2 \))合并后总均值\( \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} \)。
例题:Example 3(观测数据合并),25个观测均值6.4,30个观测均值7.2,总均值\( \bar{x} = \frac{25×6.4 + 30×7.2}{55} \approx 6.84 \)。
本章核心要点:
本章内容是描述性统计的核心,为后续的统计推断、假设检验和数据分析奠定基础。掌握这些度量方法能够帮助我们更好地理解和分析数据,做出合理的统计判断。