← 返回第2章导航

Chapter Review 2

统计学中的位置与离散程度度量(含编码)

一、集中趋势度量

知识点1:众数(Mode/Modal Class)

定义:数据中出现频率最高的数值或组别。

例题:Example 4(衬衫领围尺寸),领围\( 16.5 \)的频率最高(34),故众数为\( 16.5 \)

知识点2:中位数(Median)

定义:数据排序后位于中间位置的数值。

例题:Example 4(衬衫领围尺寸),总频数95,中间位置第48位对应领围16;Example 6(员工通勤距离),20个数据的中位数是第10.5位,即\( \frac{7+9}{2}=8 \) km。

知识点3:均值(Mean)

定义:算术平均值,公式\( \bar{x} = \frac{\sum x}{n} \)。

例题:Example 9(测试分数),7名学生分数和为36,均值\( \bar{x} = \frac{36}{7} \approx 5.14 \);Example 3(合并均值),25个观测均值6.4,30个观测均值7.2,总均值\( \bar{x} = \frac{25×6.4 + 30×7.2}{25+30} \approx 6.84 \)。

知识点4:频率表的均值

定义:频率表数据的均值公式\( \bar{x} = \frac{\sum xf}{\sum f} \)(\( x \)为数据值,\( f \)为频率)。

例题:Example 4(衬衫领围尺寸),计算得均值\( \bar{x} = \frac{1537.5}{95} = 16.2 \);Example 10(午餐外出时长),均值\( \bar{x} = \frac{3082}{83} \approx 37.13 \) 分钟。

二、位置度量(分位数)

知识点5:离散数据的下四分位数(\( Q_1 \))

定义:数据第25%位置的数值,计算方法:\( n/4 \),整数则取中间值,否则向上取整。

例题:Example 6(员工通勤距离),\( n=20 \),\( Q_1 \)位置\( 20/4=5 \),取第5、6位数据(4和4)的平均值,\( Q_1=4 \) km

知识点6:离散数据的上四分位数(\( Q_3 \))

定义:数据第75%位置的数值,计算方法:\( 3n/4 \),整数则取中间值,否则向上取整。

例题:Example 6(员工通勤距离),\( n=20 \),\( Q_3 \)位置\( 3×20/4=15 \),取第15、16位数据(12和13)的平均值,\( Q_3=12.5 \) km

知识点7:极差(Range)

定义:最大值与最小值的差,公式\( \text{Range} = \text{最大值} - \text{最小值} \)。

例题:Example 8(非洲象体重),体重范围\( 4.0 \leq m < 6.5 \),故极差\( = 6.5 - 4.0=2.5 \) 吨

知识点8:四分位距(IQR)

定义:上四分位数与下四分位数的差,公式\( \text{IQR} = Q_3 - Q_1 \)。

例题:Example 8(非洲象体重),\( Q_3≈5.84 \) 吨,\( Q_1≈4.87 \) 吨,IQR\( = 5.84 - 4.87=0.97 \) 吨

知识点9:百分位距(Interpercentile Range)

定义:两个给定百分位数的差值(如10th到90th百分位距)。

例题:Example 8(非洲象体重),10th百分位数≈4.46吨,90th百分位数≈6.18吨,百分位距\( = 6.18 - 4.46=1.72 \) 吨

三、离散程度度量(方差与标准差)

知识点10:方差(Variance)

定义:衡量数据分散程度,公式\( \sigma^2 = \frac{\sum (x-\bar{x})^2}{n} = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \);频率表数据公式为\( \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \)。

例题:Example 9(测试分数),方差\( \sigma^2 = \frac{218}{7} - \left( \frac{36}{7} \right)^2 \approx 4.69 \);Example 10(午餐外出时长),方差\( \sigma^2 = \frac{114504}{83} - \left( \frac{3082}{83} \right)^2 \approx 0.741 \)。

知识点11:标准差(Standard Deviation)

定义:方差的平方根,公式\( \sigma = \sqrt{\text{方差}} \)。

例题:Example 9(测试分数),标准差\( \sigma = \sqrt{4.69} \approx 2.17 \);Example 11(通话时长),标准差\( \sigma \approx 11.4 \) 分钟。

知识点12:分组数据的方差与标准差

定义:分组频率表中用组中值代替数据,按频率表公式计算。

例题:Example 11(通话时长),通过组中值计算得标准差≈11.4分钟;Example 14(通话时长编码),编码后还原得标准差≈11.35分钟。

四、编码(Coding)

知识点13:编码公式与统计量变换

定义:通过\( y = \frac{x - a}{b} \)简化计算,均值变换\( \bar{y} = \frac{\bar{x} - a}{b} \implies \bar{x} = b\bar{y} + a \),标准差变换\( \sigma_y = \frac{\sigma_x}{b} \implies \sigma_x = b\sigma_y \)。

例题:Example 12(核反应堆温度),编码\( y = \frac{x - 300}{10} \),还原得原始均值330℃,标准差17.2℃;Example 13(阵风数据),编码\( h = \frac{g - 5}{10} \),还原得原始均值25 knots,标准差8.45 knots。

五、合并均值

知识点14:两组数据的合并均值

定义:组A(\( n_1, \bar{x}_1 \))与组B(\( n_2, \bar{x}_2 \))合并后总均值\( \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} \)。

例题:Example 3(观测数据合并),25个观测均值6.4,30个观测均值7.2,总均值\( \bar{x} = \frac{25×6.4 + 30×7.2}{55} \approx 6.84 \)。

核心公式总结

集中趋势度量

\[ \text{均值:} \bar{x} = \frac{\sum x}{n} \quad \text{频率表:} \bar{x} = \frac{\sum fx}{\sum f} \]
\[ \text{合并均值:} \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} \]

离散程度度量

\[ \text{方差:} \sigma^2 = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \]
\[ \text{频率表方差:} \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \]
\[ \text{标准差:} \sigma = \sqrt{\sigma^2} \]

编码变换

\[ \text{编码公式:} y = \frac{x - a}{b} \]
\[ \text{均值变换:} \bar{x} = b\bar{y} + a \quad \text{标准差变换:} \sigma_x = b\sigma_y \]

学习要点总结

本章核心要点

  • 集中趋势:众数、中位数、均值是描述数据集中程度的重要指标
  • 位置度量:四分位数、百分位数帮助理解数据分布的位置特征
  • 离散程度:极差、四分位距、方差、标准差衡量数据的分散程度
  • 编码方法:通过线性变换简化计算,保持统计特性
  • 合并计算:掌握多组数据合并后的统计量计算方法
应用价值

本章内容是描述性统计的核心,为后续的统计推断、假设检验和数据分析奠定基础。掌握这些度量方法能够帮助我们更好地理解和分析数据,做出合理的统计判断。

Chapter Review 2 - 位置与离散程度度量 ← 返回第2章导航

Chapter Review 2

统计学中的位置与离散程度度量(含编码)

一、集中趋势度量

知识点1:众数(Mode/Modal Class)

定义:数据中出现频率最高的数值或组别。

例题:Example 4(衬衫领围尺寸),领围\( 16.5 \)的频率最高(34),故众数为\( 16.5 \)

知识点2:中位数(Median)

定义:数据排序后位于中间位置的数值。

例题:Example 4(衬衫领围尺寸),总频数95,中间位置第48位对应领围16;Example 6(员工通勤距离),20个数据的中位数是第10.5位,即\( \frac{7+9}{2}=8 \) km。

知识点3:均值(Mean)

定义:算术平均值,公式\( \bar{x} = \frac{\sum x}{n} \)。

例题:Example 9(测试分数),7名学生分数和为36,均值\( \bar{x} = \frac{36}{7} \approx 5.14 \);Example 3(合并均值),25个观测均值6.4,30个观测均值7.2,总均值\( \bar{x} = \frac{25×6.4 + 30×7.2}{25+30} \approx 6.84 \)。

知识点4:频率表的均值

定义:频率表数据的均值公式\( \bar{x} = \frac{\sum xf}{\sum f} \)(\( x \)为数据值,\( f \)为频率)。

例题:Example 4(衬衫领围尺寸),计算得均值\( \bar{x} = \frac{1537.5}{95} = 16.2 \);Example 10(午餐外出时长),均值\( \bar{x} = \frac{3082}{83} \approx 37.13 \) 分钟。

二、位置度量(分位数)

知识点5:离散数据的下四分位数(\( Q_1 \))

定义:数据第25%位置的数值,计算方法:\( n/4 \),整数则取中间值,否则向上取整。

例题:Example 6(员工通勤距离),\( n=20 \),\( Q_1 \)位置\( 20/4=5 \),取第5、6位数据(4和4)的平均值,\( Q_1=4 \) km

知识点6:离散数据的上四分位数(\( Q_3 \))

定义:数据第75%位置的数值,计算方法:\( 3n/4 \),整数则取中间值,否则向上取整。

例题:Example 6(员工通勤距离),\( n=20 \),\( Q_3 \)位置\( 3×20/4=15 \),取第15、16位数据(12和13)的平均值,\( Q_3=12.5 \) km

知识点7:极差(Range)

定义:最大值与最小值的差,公式\( \text{Range} = \text{最大值} - \text{最小值} \)。

例题:Example 8(非洲象体重),体重范围\( 4.0 \leq m < 6.5 \),故极差\( = 6.5 - 4.0=2.5 \) 吨

知识点8:四分位距(IQR)

定义:上四分位数与下四分位数的差,公式\( \text{IQR} = Q_3 - Q_1 \)。

例题:Example 8(非洲象体重),\( Q_3≈5.84 \) 吨,\( Q_1≈4.87 \) 吨,IQR\( = 5.84 - 4.87=0.97 \) 吨

知识点9:百分位距(Interpercentile Range)

定义:两个给定百分位数的差值(如10th到90th百分位距)。

例题:Example 8(非洲象体重),10th百分位数≈4.46吨,90th百分位数≈6.18吨,百分位距\( = 6.18 - 4.46=1.72 \) 吨

三、离散程度度量(方差与标准差)

知识点10:方差(Variance)

定义:衡量数据分散程度,公式\( \sigma^2 = \frac{\sum (x-\bar{x})^2}{n} = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \);频率表数据公式为\( \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \)。

例题:Example 9(测试分数),方差\( \sigma^2 = \frac{218}{7} - \left( \frac{36}{7} \right)^2 \approx 4.69 \);Example 10(午餐外出时长),方差\( \sigma^2 = \frac{114504}{83} - \left( \frac{3082}{83} \right)^2 \approx 0.741 \)。

知识点11:标准差(Standard Deviation)

定义:方差的平方根,公式\( \sigma = \sqrt{\text{方差}} \)。

例题:Example 9(测试分数),标准差\( \sigma = \sqrt{4.69} \approx 2.17 \);Example 11(通话时长),标准差\( \sigma \approx 11.4 \) 分钟。

知识点12:分组数据的方差与标准差

定义:分组频率表中用组中值代替数据,按频率表公式计算。

例题:Example 11(通话时长),通过组中值计算得标准差≈11.4分钟;Example 14(通话时长编码),编码后还原得标准差≈11.35分钟。

四、编码(Coding)

知识点13:编码公式与统计量变换

定义:通过\( y = \frac{x - a}{b} \)简化计算,均值变换\( \bar{y} = \frac{\bar{x} - a}{b} \implies \bar{x} = b\bar{y} + a \),标准差变换\( \sigma_y = \frac{\sigma_x}{b} \implies \sigma_x = b\sigma_y \)。

例题:Example 12(核反应堆温度),编码\( y = \frac{x - 300}{10} \),还原得原始均值330℃,标准差17.2℃;Example 13(阵风数据),编码\( h = \frac{g - 5}{10} \),还原得原始均值25 knots,标准差8.45 knots。

五、合并均值

知识点14:两组数据的合并均值

定义:组A(\( n_1, \bar{x}_1 \))与组B(\( n_2, \bar{x}_2 \))合并后总均值\( \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} \)。

例题:Example 3(观测数据合并),25个观测均值6.4,30个观测均值7.2,总均值\( \bar{x} = \frac{25×6.4 + 30×7.2}{55} \approx 6.84 \)。

核心公式总结

集中趋势度量

\[ \text{均值:} \bar{x} = \frac{\sum x}{n} \quad \text{频率表:} \bar{x} = \frac{\sum fx}{\sum f} \]
\[ \text{合并均值:} \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} \]

离散程度度量

\[ \text{方差:} \sigma^2 = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \]
\[ \text{频率表方差:} \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \]
\[ \text{标准差:} \sigma = \sqrt{\sigma^2} \]

编码变换

\[ \text{编码公式:} y = \frac{x - a}{b} \]
\[ \text{均值变换:} \bar{x} = b\bar{y} + a \quad \text{标准差变换:} \sigma_x = b\sigma_y \]

学习要点总结

本章核心要点

  • 集中趋势:众数、中位数、均值是描述数据集中程度的重要指标
  • 位置度量:四分位数、百分位数帮助理解数据分布的位置特征
  • 离散程度:极差、四分位距、方差、标准差衡量数据的分散程度
  • 编码方法:通过线性变换简化计算,保持统计特性
  • 合并计算:掌握多组数据合并后的统计量计算方法
应用价值

本章内容是描述性统计的核心,为后续的统计推断、假设检验和数据分析奠定基础。掌握这些度量方法能够帮助我们更好地理解和分析数据,做出合理的统计判断。