← 返回2.6导航

2.6 Coding

编码 - 简化统计计算的重要方法

一、核心知识点

1. 编码的定义

定义:编码是一种简化统计计算的方法,通过将原始数据\( x \)按照公式转换为新数据\( y \),使计算更简便。

\[ y = \frac{x - a}{b} \]

其中 \(a\)、\(b\) 为常数,\(a\) 称为平移常数,\(b\) 称为缩放常数

2. 编码后统计量的变换规则

均值的变换

若 \(y = \frac{x - a}{b}\),则原始数据的均值 \(\bar{x}\) 与编码后数据的均值 \(\bar{y}\) 满足:

\[ \bar{y} = \frac{\bar{x} - a}{b} \implies \bar{x} = b\bar{y} + a \]

标准差的变换

若 \(y = \frac{x - a}{b}\),则原始数据的标准差 \(\sigma_x\) 与编码后数据的标准差 \(\sigma_y\) 满足:

\[ \sigma_y = \frac{\sigma_x}{b} \implies \sigma_x = b\sigma_y \]

注意:常数 \(a\) 不影响标准差,因为加减常数不改变数据的离散程度。

编码的优势

  • 简化计算过程,减少计算错误
  • 使数据更易于处理和分析
  • 保持原始数据的统计特性
  • 便于手工计算和验证

二、精选例题

例题1:原始数据的编码与统计量还原 | Example 1: Coding Raw Data and Restoring Statistics

题目:科学家测量核反应堆5个点的温度\( x \)(℃):332, 355, 306, 317, 340,使用编码\( y = \frac{x - 300}{10} \)。

a 对数据进行编码;b 计算编码后数据的均值和标准差;c 还原原始数据的均值和标准差。

解答过程

a 编码后的数据

\( y_1 = \frac{332 - 300}{10} = 3.2 \)

\( y_2 = \frac{355 - 300}{10} = 5.5 \)

\( y_3 = \frac{306 - 300}{10} = 0.6 \)

\( y_4 = \frac{317 - 300}{10} = 1.7 \)

\( y_5 = \frac{340 - 300}{10} = 4.0 \)

编码后数据:\( 3.2, 5.5, 0.6, 1.7, 4.0 \)

b 编码后数据的统计量

• 均值:\(\bar{y} = \frac{3.2 + 5.5 + 0.6 + 1.7 + 4.0}{5} = \frac{15}{5} = 3\)

• 平方和:\(\sum y^2 = 3.2^2 + 5.5^2 + 0.6^2 + 1.7^2 + 4.0^2 = 10.24 + 30.25 + 0.36 + 2.89 + 16 = 59.74\)

• 方差:\(\sigma_y^2 = \frac{59.74}{5} - 3^2 = 11.948 - 9 = 2.948\)

• 标准差:\(\sigma_y = \sqrt{2.948} \approx 1.72\)

c 还原原始数据的统计量

• 原始均值:\(\bar{x} = b\bar{y} + a = 10 \times 3 + 300 = 330\)℃

• 原始标准差:\(\sigma_x = b\sigma_y = 10 \times 1.72 = 17.2\)℃

例题2:汇总数据的编码还原 | Example 2: Coding Summary Data Restoration

题目:芝加哥阵风数据编码为\( h = \frac{g - 5}{10} \),已知编码后均值\(\bar{h} = 2\),\( S_{hh} = 43.58 \),\( n = 61 \),求原始阵风的均值和标准差。

解答过程

已知条件

• 编码公式:\( h = \frac{g - 5}{10} \)

• 编码后均值:\(\bar{h} = 2\)

• 编码后平方和:\( S_{hh} = 43.58 \)

• 数据个数:\( n = 61 \)

计算编码后标准差

\(\sigma_h = \sqrt{\frac{S_{hh}}{n}} = \sqrt{\frac{43.58}{61}} = \sqrt{0.714} \approx 0.845\)

还原原始数据统计量

• 原始均值:\(\bar{g} = b\bar{h} + a = 10 \times 2 + 5 = 25\) knots

• 原始标准差:\(\sigma_g = b\sigma_h = 10 \times 0.845 = 8.45\) knots

例题3:分组数据的编码估计 | Example 3: Coding Estimation for Grouped Data

题目:Akira的通话时长分组表如下,使用编码\( y = \frac{x - 7.5}{5} \),估计原始数据的均值和标准差。

通话时长\( x \)(分钟) \( 0 < x \leq 5 \) \( 5 < x \leq 10 \) \( 10 < x \leq 15 \) \( 15 < x \leq 20 \) \( 20 < x \leq 60 \) \( 60 < x \leq 70 \)
频率\( f \) 4 15 5 2 0 1

解答过程

步骤1:计算编码后的统计量

时长区间 组中值\( x \) 编码值\( y \) 频率\( f \) \( fy \) \( fy^2 \)
\( 0 < x \leq 5 \) 2.5 -1.0 4 -4 4
\( 5 < x \leq 10 \) 7.5 0.0 15 0 0
\( 10 < x \leq 15 \) 12.5 1.0 5 5 5
\( 15 < x \leq 20 \) 17.5 2.0 2 4 8
\( 20 < x \leq 60 \) 40 6.5 0 0 0
\( 60 < x \leq 70 \) 65 11.5 1 11.5 132.25
总计 - - 27 16.5 149.25

步骤2:计算编码后统计量

• 编码后均值:\(\bar{y} = \frac{16.5}{27} = 0.611\)

• 编码后方差:\(\sigma_y^2 = \frac{149.25}{27} - (0.611)^2 = 5.528 - 0.373 = 5.155\)

• 编码后标准差:\(\sigma_y = \sqrt{5.155} = 2.27\)

步骤3:还原原始数据统计量

• 原始均值:\(\bar{x} = b\bar{y} + a = 5 \times 0.611 + 7.5 = 3.055 + 7.5 = 10.555 \approx 10.56\)分钟

• 原始标准差:\(\sigma_x = b\sigma_y = 5 \times 2.27 = 11.35\)分钟

三、课堂练习解答

练习1:简单编码

题目:数据\( x \):110, 90, 50, 80, 30, 70, 60,使用编码\( y = \frac{x}{10} \)。

a 编码后数据;b 编码后均值;c 原始均值

解答过程

a 编码后数据

\( y = \frac{x}{10} \),即 \( y = \frac{x - 0}{10} \)(\( a = 0, b = 10 \))

编码后:\( 11, 9, 5, 8, 3, 7, 6 \)

b 编码后均值

\(\bar{y} = \frac{11 + 9 + 5 + 8 + 3 + 7 + 6}{7} = \frac{49}{7} = 7\)

c 原始均值

\(\bar{x} = b\bar{y} + a = 10 \times 7 + 0 = 70\)

练习2:带平移的编码

题目:数据\( x \):52, 73, 31, 73, 38, 80, 17, 24,使用编码\( y = \frac{x - 3}{7} \)。

a 编码后数据;b 编码后均值;c 原始均值

解答过程

a 编码后数据

\( y = \frac{x - 3}{7} \)(\( a = 3, b = 7 \))

编码后:\( 7, 10, 4, 10, 5, 11, 2, 3 \)

b 编码后均值

\(\bar{y} = \frac{7 + 10 + 4 + 10 + 5 + 11 + 2 + 3}{8} = \frac{52}{8} = 6.5\)

c 原始均值

\(\bar{x} = b\bar{y} + a = 7 \times 6.5 + 3 = 45.5 + 3 = 48.5\)

总结

核心要点:编码是简化统计计算的重要方法:

  • 编码公式:\( y = \frac{x - a}{b} \),其中 \(a\) 为平移常数,\(b\) 为缩放常数;
  • 均值变换:\(\bar{x} = b\bar{y} + a\);
  • 标准差变换:\(\sigma_x = b\sigma_y\);
  • 平移常数不影响标准差,只有缩放常数影响;
  • 编码可以大大简化计算过程,减少计算错误。
学习价值

掌握编码方法是统计学中的重要技能,它不仅简化了计算过程,还帮助我们更好地理解数据变换对统计量的影响。在实际应用中,编码常用于处理大数值数据,使计算更加高效准确。