← 返回2.5导航

2.5 Variance and Standard Deviation

方差与标准差 - 衡量数据分散程度的重要指标

一、核心知识点

1. 方差(Variance)

定义:衡量数据分散程度的指标,反映数据与均值的偏离程度。

\[ \sigma^2 = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \]

对于分组数据(含频率表),公式拓展为:

\[ \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \]

其中 \(f\) 为频率,\(x\) 为数据值或组中值

2. 标准差(Standard Deviation)

定义:方差的平方根,单位与原始数据一致。

\[ \sigma = \sqrt{\text{方差}} \]

特点:标准差比方差更直观,因为它与原始数据具有相同的单位。

关键关系:方差和标准差都是衡量数据分散程度的重要指标,数值越大表示数据越分散,数值越小表示数据越集中。

二、精选例题

例题1:原始数据的方差与标准差 | Example 1: Variance and Standard Deviation for Raw Data

题目:7名学生的测试分数:3, 4, 6, 2, 8, 8, 5,求方差和标准差。

解答过程

步骤1:计算基本统计量

• 求和:\(\sum x = 3+4+6+2+8+8+5 = 36\)

• 平方和:\(\sum x^2 = 3^2+4^2+6^2+2^2+8^2+8^2+5^2 = 218\)

• 数据个数:\(n = 7\)

步骤2:计算方差

\(\sigma^2 = \frac{218}{7} - \left( \frac{36}{7} \right)^2 = 31.14 - 26.45 \approx 4.69\)

步骤3:计算标准差

\(\sigma = \sqrt{4.69} \approx 2.17\)

例题2:离散频率表的方差与标准差 | Example 2: Variance and Standard Deviation for Discrete Frequency Table

题目:学生午餐外出时长的频率表如下,求标准差。

时长\( x \)(分钟) 35 36 37 38
频率\( f \) 3 17 29 34

解答过程

步骤1:计算加权和

\(\sum fx = 3×35 + 17×36 + 29×37 + 34×38 = 105 + 612 + 1073 + 1292 = 3082\)

步骤2:计算加权平方和

\(\sum fx^2 = 3×35^2 + 17×36^2 + 29×37^2 + 34×38^2 = 3675 + 22032 + 39721 + 49076 = 114504\)

步骤3:计算总频率

\(\sum f = 3+17+29+34 = 83\)

步骤4:计算方差

\(\sigma^2 = \frac{114504}{83} - \left( \frac{3082}{83} \right)^2 = 1379.57 - 1378.83 \approx 0.741\)

步骤5:计算标准差

\(\sigma = \sqrt{0.741} \approx 0.861\)(3位有效数字)

例题3:分组频率表的方差与标准差估计 | Example 3: Variance and Standard Deviation Estimation for Grouped Frequency Table

题目:Akira的通话时长分组表如下,求标准差的估计值。

通话时长\( l \)(分钟) \( 0 < l \leq 5 \) \( 5 < l \leq 10 \) \( 10 < l \leq 15 \) \( 15 < l \leq 20 \) \( 20 < l \leq 60 \) \( 60 < l \leq 70 \)
频率\( f \) 4 15 5 2 0 1

解答过程

步骤1:计算组中值和统计量

时长区间 组中值\( x \) 频率\( f \) \( fx \) \( fx^2 \)
\( 0 < l \leq 5 \) 2.5 4 10 25
\( 5 < l \leq 10 \) 7.5 15 112.5 843.75
\( 10 < l \leq 15 \) 12.5 5 62.5 781.25
\( 15 < l \leq 20 \) 17.5 2 35 612.5
\( 20 < l \leq 60 \) 40 0 0 0
\( 60 < l \leq 70 \) 65 1 65 4225
总计 - 27 285 6487.5

步骤2:计算方差

\(\sigma^2 = \frac{6487.5}{27} - \left( \frac{285}{27} \right)^2 = 240.28 - 111.42 \approx 128.86\)

步骤3:计算标准差

\(\sigma = \sqrt{128.86} \approx 11.4\)(3位有效数字)

三、课堂练习解答

练习1:汇总数据计算

题目:变量\( x \)的汇总数据:\(\sum x = 24\),\(\sum x^2 = 78\),\( n = 8 \)

求:a 均值;b 方差\(\sigma^2\);c 标准差\(\sigma\)

解答过程

a 均值:\(\bar{x} = \frac{24}{8} = 3\)

b 方差:\(\sigma^2 = \frac{78}{8} - 3^2 = 9.75 - 9 = 0.75\)

c 标准差:\(\sigma = \sqrt{0.75} \approx 0.866\)

练习2:学生身高数据

题目:8名学生的身高(cm):165, 170, 190, 180, 175, 185, 176, 184

a 求均值;b 已知\(\sum h^2 = 254307\),求方差;c 求标准差

解答过程

a 均值:\(\bar{h} = \frac{165+170+190+180+175+185+176+184}{8} = \frac{1425}{8} = 178.125\) cm

b 方差:\(\sigma^2 = \frac{254307}{8} - (178.125)^2 = 31788.375 - 31728.515625 = 58.3125\)

c 标准差:\(\sigma = \sqrt{58.3125} \approx 7.64\) cm

总结

核心要点:方差与标准差是衡量数据分散程度的重要指标:

  • 方差反映数据与均值的偏离程度,单位是原始数据的平方;
  • 标准差是方差的平方根,单位与原始数据一致,更直观;
  • 原始数据、频率表、分组数据都有相应的计算公式;
  • 分组数据需要用组中值进行估计;
  • 数值越大表示数据越分散,数值越小表示数据越集中。
学习价值

掌握方差与标准差是描述性统计的重要工具,它为后续的统计推断、假设检验和数据分析提供了基础。通过练习可以培养数据分析和统计思维。