编码 - 简化统计计算的重要方法
定义:编码是一种简化统计计算的方法,通过将原始数据\( x \)按照公式转换为新数据\( y \),使计算更简便。
其中 \(a\)、\(b\) 为常数,\(a\) 称为平移常数,\(b\) 称为缩放常数。
若 \(y = \frac{x - a}{b}\),则原始数据的均值 \(\bar{x}\) 与编码后数据的均值 \(\bar{y}\) 满足:
若 \(y = \frac{x - a}{b}\),则原始数据的标准差 \(\sigma_x\) 与编码后数据的标准差 \(\sigma_y\) 满足:
注意:常数 \(a\) 不影响标准差,因为加减常数不改变数据的离散程度。
编码的优势:
题目:科学家测量核反应堆5个点的温度\( x \)(℃):332, 355, 306, 317, 340,使用编码\( y = \frac{x - 300}{10} \)。
a 对数据进行编码;b 计算编码后数据的均值和标准差;c 还原原始数据的均值和标准差。
a 编码后的数据:
\( y_1 = \frac{332 - 300}{10} = 3.2 \)
\( y_2 = \frac{355 - 300}{10} = 5.5 \)
\( y_3 = \frac{306 - 300}{10} = 0.6 \)
\( y_4 = \frac{317 - 300}{10} = 1.7 \)
\( y_5 = \frac{340 - 300}{10} = 4.0 \)
编码后数据:\( 3.2, 5.5, 0.6, 1.7, 4.0 \)
b 编码后数据的统计量:
• 均值:\(\bar{y} = \frac{3.2 + 5.5 + 0.6 + 1.7 + 4.0}{5} = \frac{15}{5} = 3\)
• 平方和:\(\sum y^2 = 3.2^2 + 5.5^2 + 0.6^2 + 1.7^2 + 4.0^2 = 10.24 + 30.25 + 0.36 + 2.89 + 16 = 59.74\)
• 方差:\(\sigma_y^2 = \frac{59.74}{5} - 3^2 = 11.948 - 9 = 2.948\)
• 标准差:\(\sigma_y = \sqrt{2.948} \approx 1.72\)
c 还原原始数据的统计量:
• 原始均值:\(\bar{x} = b\bar{y} + a = 10 \times 3 + 300 = 330\)℃
• 原始标准差:\(\sigma_x = b\sigma_y = 10 \times 1.72 = 17.2\)℃
题目:芝加哥阵风数据编码为\( h = \frac{g - 5}{10} \),已知编码后均值\(\bar{h} = 2\),\( S_{hh} = 43.58 \),\( n = 61 \),求原始阵风的均值和标准差。
已知条件:
• 编码公式:\( h = \frac{g - 5}{10} \)
• 编码后均值:\(\bar{h} = 2\)
• 编码后平方和:\( S_{hh} = 43.58 \)
• 数据个数:\( n = 61 \)
计算编码后标准差:
\(\sigma_h = \sqrt{\frac{S_{hh}}{n}} = \sqrt{\frac{43.58}{61}} = \sqrt{0.714} \approx 0.845\)
还原原始数据统计量:
• 原始均值:\(\bar{g} = b\bar{h} + a = 10 \times 2 + 5 = 25\) knots
• 原始标准差:\(\sigma_g = b\sigma_h = 10 \times 0.845 = 8.45\) knots
题目:Akira的通话时长分组表如下,使用编码\( y = \frac{x - 7.5}{5} \),估计原始数据的均值和标准差。
| 通话时长\( x \)(分钟) | \( 0 < x \leq 5 \) | \( 5 < x \leq 10 \) | \( 10 < x \leq 15 \) | \( 15 < x \leq 20 \) | \( 20 < x \leq 60 \) | \( 60 < x \leq 70 \) |
|---|---|---|---|---|---|---|
| 频率\( f \) | 4 | 15 | 5 | 2 | 0 | 1 |
步骤1:计算编码后的统计量
| 时长区间 | 组中值\( x \) | 编码值\( y \) | 频率\( f \) | \( fy \) | \( fy^2 \) |
|---|---|---|---|---|---|
| \( 0 < x \leq 5 \) | 2.5 | -1.0 | 4 | -4 | 4 |
| \( 5 < x \leq 10 \) | 7.5 | 0.0 | 15 | 0 | 0 |
| \( 10 < x \leq 15 \) | 12.5 | 1.0 | 5 | 5 | 5 |
| \( 15 < x \leq 20 \) | 17.5 | 2.0 | 2 | 4 | 8 |
| \( 20 < x \leq 60 \) | 40 | 6.5 | 0 | 0 | 0 |
| \( 60 < x \leq 70 \) | 65 | 11.5 | 1 | 11.5 | 132.25 |
| 总计 | - | - | 27 | 16.5 | 149.25 |
步骤2:计算编码后统计量
• 编码后均值:\(\bar{y} = \frac{16.5}{27} = 0.611\)
• 编码后方差:\(\sigma_y^2 = \frac{149.25}{27} - (0.611)^2 = 5.528 - 0.373 = 5.155\)
• 编码后标准差:\(\sigma_y = \sqrt{5.155} = 2.27\)
步骤3:还原原始数据统计量
• 原始均值:\(\bar{x} = b\bar{y} + a = 5 \times 0.611 + 7.5 = 3.055 + 7.5 = 10.555 \approx 10.56\)分钟
• 原始标准差:\(\sigma_x = b\sigma_y = 5 \times 2.27 = 11.35\)分钟
题目:数据\( x \):110, 90, 50, 80, 30, 70, 60,使用编码\( y = \frac{x}{10} \)。
a 编码后数据;b 编码后均值;c 原始均值
a 编码后数据:
\( y = \frac{x}{10} \),即 \( y = \frac{x - 0}{10} \)(\( a = 0, b = 10 \))
编码后:\( 11, 9, 5, 8, 3, 7, 6 \)
b 编码后均值:
\(\bar{y} = \frac{11 + 9 + 5 + 8 + 3 + 7 + 6}{7} = \frac{49}{7} = 7\)
c 原始均值:
\(\bar{x} = b\bar{y} + a = 10 \times 7 + 0 = 70\)
题目:数据\( x \):52, 73, 31, 73, 38, 80, 17, 24,使用编码\( y = \frac{x - 3}{7} \)。
a 编码后数据;b 编码后均值;c 原始均值
a 编码后数据:
\( y = \frac{x - 3}{7} \)(\( a = 3, b = 7 \))
编码后:\( 7, 10, 4, 10, 5, 11, 2, 3 \)
b 编码后均值:
\(\bar{y} = \frac{7 + 10 + 4 + 10 + 5 + 11 + 2 + 3}{8} = \frac{52}{8} = 6.5\)
c 原始均值:
\(\bar{x} = b\bar{y} + a = 7 \times 6.5 + 3 = 45.5 + 3 = 48.5\)
核心要点:编码是简化统计计算的重要方法:
掌握编码方法是统计学中的重要技能,它不仅简化了计算过程,还帮助我们更好地理解数据变换对统计量的影响。在实际应用中,编码常用于处理大数值数据,使计算更加高效准确。