5.1.1 双变量数据与散点图概述

在统计分析中,我们经常需要研究两个变量之间的关系。例如,我们可能想了解:

  • 学生的学习时间与考试成绩之间的关系
  • 产品价格与销售量之间的关系
  • 气温与空调用电量之间的关系

定义:双变量数据

双变量数据包含两个变量的测量值,这些变量通常成对出现,每对值对应一个观察单位。例如,对于每位学生,我们可能记录学习时间和考试成绩,形成一对数据点。

散点图是可视化双变量数据的最常用方法,它能够帮助我们直观地识别变量之间的关系模式。

5.1.2 绘制散点图

绘制散点图需要遵循一定的步骤,以确保图表清晰、准确地传达数据信息。

绘制散点图的步骤

  • 确定变量类型
    • 自变量(解释变量):通常放在x轴
    • 因变量(响应变量):通常放在y轴
  • 设置坐标轴
    • 确保坐标轴覆盖所有数据值
    • 使用适当的刻度,便于解读
    • 为坐标轴添加清晰的标签和单位
  • 绘制数据点
    • 对于每对数据点(x,y),在图上标记相应位置
    • 使用适当大小的点,避免重叠造成视觉混乱
  • 添加图表标题
    • 标题应简洁明了,反映两个变量的关系
  • 示例:绘制学习时间与考试成绩的散点图

    以下是10名学生的学习时间(小时)和考试成绩数据:

    学习时间 2 3 4 5 5 6 7 8 9 10
    考试成绩 45 52 60 65 70 75 80 85 88 92

    图5.1.1:学习时间与考试成绩的散点图

    学习时间(小时) 考试成绩(分) 0 5 10 15 20 0 50 100 150 200

    注:数据点显示出明显的上升趋势,表明学习时间与考试成绩之间存在正相关关系。

    5.1.3 相关性的类型

    通过观察散点图,我们可以识别不同类型的相关性。主要的相关性类型包括:

    1. 正相关(Positive Correlation)

    当一个变量增加时,另一个变量也倾向于增加,我们称这种关系为正相关。在散点图上,数据点大致呈上升趋势。

    图5.1.2:正相关示例

    变量X 变量Y

    当变量X增加时,变量Y也增加

    2. 负相关(Negative Correlation)

    当一个变量增加时,另一个变量倾向于减少,我们称这种关系为负相关。在散点图上,数据点大致呈下降趋势。

    图5.1.3:负相关示例

    变量X 变量Y

    当变量X增加时,变量Y减少

    3. 无相关(No Correlation)

    当两个变量之间不存在明显的关系模式时,我们称它们之间无相关。在散点图上,数据点随机分布,没有明显的趋势。

    图5.1.4:无相关示例

    变量X 变量Y

    变量X和变量Y之间没有明显的关系模式

    5.1.4 相关性的强度

    除了类型之外,我们还可以评估相关性的强度。相关性的强度描述了两个变量之间关系的紧密程度。

    相关性强度的评估

    通过观察散点图中数据点的分布模式,我们可以大致评估相关性的强度:

    • 强相关:数据点紧密地聚集在一条想象中的直线附近
    • 中等相关:数据点大致呈线性模式,但分布较为分散
    • 弱相关:数据点显示出轻微的线性趋势,但分布非常分散

    图5.1.5:相关性强度比较

    强相关 中等相关 弱相关

    注意事项

    相关性的强度评估通常是主观的。在后续章节中,我们将学习如何使用相关系数(如皮尔逊相关系数)来量化相关性的强度。

    5.1.5 相关性与因果关系

    理解相关性与因果关系的区别是统计分析中的重要概念。

    定义:相关性与因果关系

    • 相关性:描述两个变量之间的关联程度,表明它们如何一起变化
    • 因果关系:表明一个变量的变化直接导致另一个变量的变化

    为什么相关性不意味着因果关系?

    两个变量之间存在相关性可能有多种原因,并不一定意味着存在因果关系:

  • 1. 潜在变量(Confounding Variable):两个相关变量可能都受到第三个变量的影响
  • 2. 反向因果关系(Reverse Causation):可能是变量A导致变量B,也可能是变量B导致变量A
  • 3. 巧合(Coincidence):某些情况下,相关性可能只是纯粹的巧合
  • 示例:相关性与因果关系的区别

    研究发现,城市中冰淇淋销售量与溺水死亡人数之间存在正相关关系。这是否意味着吃冰淇淋会导致溺水?

    实际上,这两个变量都受到温度的影响——在炎热的天气里,更多人购买冰淇淋,也有更多人游泳,从而增加了溺水风险。因此,温度是一个潜在变量。

    温度 冰淇淋销量 溺水人数 虚假相关

    重要提醒

    相关性分析可以帮助我们发现变量之间的关系,但要确定因果关系,通常需要进行对照实验或更复杂的统计方法。

    5.1.6 散点图的局限性

    虽然散点图是分析双变量关系的强大工具,但它也有一些局限性:

    • 只能分析两个变量:散点图一次只能展示两个变量之间的关系
    • 可能掩盖非线性关系:散点图主要用于识别线性关系,可能会掩盖复杂的非线性模式
    • 受异常值影响:单个异常值可能会显著改变我们对关系的理解
    • 无法显示时间序列:散点图不保留数据收集的时间顺序

    图5.1.6:异常值的影响

    异常值 原始趋势 受异常值影响的趋势

    改进散点图分析的策略

    • 检查异常值并考虑它们对整体模式的影响
    • 对于大样本数据,考虑使用透明度或密度图来避免点的重叠
    • 结合数值分析方法(如相关系数计算)进行更全面的分析