📜  安斯科姆四重奏(1)

📅  最后修改于: 2023-12-03 14:53:29.443000             🧑  作者: Mango

安斯科姆四重奏

安斯科姆四重奏(Anscombe's quartet)是由统计学家 Francis Anscombe 在他的一篇论文中提出的四组具有相同统计特征但形态截然不同的数据集合,旨在呈现数据分析中数据的必要性、可视化的必要性以及对统计学方法使用的合理审查和慎重。

数据集

以下是四个数据集:

第一组 - 直接关系

| 变量 X | 变量 Y | | ------ | ------ | | 10.0 | 8.04 | | 8.0 | 6.95 | | 13.0 | 7.58 | | 9.0 | 8.81 | | 11.0 | 8.33 | | 14.0 | 9.96 | | 6.0 | 7.24 | | 4.0 | 4.26 | | 12.0 | 10.84 | | 7.0 | 4.82 | | 5.0 | 5.68 |

第二组 - 异常值

| 变量 X | 变量 Y | | ------ | ------ | | 10.0 | 9.14 | | 8.0 | 8.14 | | 13.0 | 8.74 | | 9.0 | 8.77 | | 11.0 | 9.26 | | 14.0 | 8.10 | | 6.0 | 6.13 | | 4.0 | 3.10 | | 12.0 | 9.13 | | 7.0 | 7.26 | | 5.0 | 4.74 |

第三组 - 非线性关系

| 变量 X | 变量 Y | | ------ | ------ | | 10.0 | 7.46 | | 8.0 | 6.77 | | 13.0 | 12.74 | | 9.0 | 7.11 | | 11.0 | 7.81 | | 14.0 | 8.84 | | 6.0 | 6.08 | | 4.0 | 5.39 | | 12.0 | 8.15 | | 7.0 | 6.42 | | 5.0 | 5.73 |

第四组 - 相同平均值和方差

| 变量 X | 变量 Y | | ------ | ------ | | 8.0 | 6.58 | | 8.0 | 5.76 | | 8.0 | 7.71 | | 8.0 | 8.84 | | 8.0 | 8.47 | | 8.0 | 7.04 | | 8.0 | 5.25 | | 19.0 | 12.50 | | 8.0 | 5.56 | | 8.0 | 7.91 | | 8.0 | 6.89 |

数据统计特征

通过计算平均数、方差、相关系数和回归等数据统计特征,可以看出这四组数据集合都具有相同的统计特征,但是却具有不同的数据形态,从而呈现了数据可视化的必要性和对统计学方法合理审查和慎重的需求。

以下是各数据集的统计特征:

第一组

平均数:

  • 变量 X 的平均数:9.0
  • 变量 Y 的平均数:7.5

方差:

  • 变量 X 的方差:11.0
  • 变量 Y 的方差:4.127

相关系数:0.816

回归模型:

Y = 3.00 + 0.50 * X
第二组

平均数:

  • 变量 X 的平均数:9.0
  • 变量 Y 的平均数:7.5

方差:

  • 变量 X 的方差:11.0
  • 变量 Y 的方差:4.126

相关系数:0.816

回归模型:

Y = 3.00 + 0.50 * X
第三组

平均数:

  • 变量 X 的平均数:9.0
  • 变量 Y 的平均数:7.5

方差:

  • 变量 X 的方差:11.0
  • 变量 Y 的方差:4.128

相关系数:0.816

回归模型:

Y = 3.00 + 0.50 * X
第四组

平均数:

  • 变量 X 的平均数:9.0
  • 变量 Y 的平均数:7.5

方差:

  • 变量 X 的方差:11.0
  • 变量 Y 的方差:4.122

相关系数:0.817

回归模型:

Y = 3.00 + 0.50 * X
数据可视化

通过数据可视化,我们可以更好地理解数据之间的关系,以便更好地进行数据分析和预测。

以下是各数据集在散点图中的可视化效果:

第一组

第一组散点图

第二组

第二组散点图

第三组

第三组散点图

第四组

第四组散点图

结论

安斯科姆四重奏呈现了从传统的数据视角中难以捕捉的数据之间的关系,强调了数据可视化经常是更好地理解数据之间的关系的必要性,从而提醒了我们在进行统计分析或数据建模前要审查和验证数据的合理性。