📜  斯皮尔曼等级相关性

📅  最后修改于: 2022-05-13 01:58:08.530000             🧑  作者: Mango

斯皮尔曼等级相关性

什么是相关性检验?
两个变量之间的关联强度称为相关性检验。例如,如果我们想知道父子的身高是否有关系,可以计算一个相关系数来回答这个问题。

有关相关性的更多信息,请参阅此。

相关分析方法:
主要有两种类型的相关性:

  • 参数相关性——皮尔逊相关性(r):它测量两个变量(x 和 y)之间的线性相关性,被称为参数相关性检验,因为它取决于数据的分布。
  • 非参数相关 - Kendall(tau)Spearman(rho):它们是基于等级的相关系数,被称为非参数相关。

斯皮尔曼相关公式:

{{\displaystyle r_s= 1 - \frac {6\sum d_i^2}{n(n^2 - 1)}

示例:在 Spearman 等级相关性中,我们所做的是将数据即使是实值数据也转换为我们所说的等级。让我们考虑在变量 X 1和 Y 1 中取 10 个不同的数据点。并找出他们各自的排名。然后找出每个数据项的两个变量值的等级差异的平方。

Number12345678910
X176458710392
Y154561079281
Rank X16.553486.510291
Rank Y14.534.561079281
d2442.25440.251010

第 1 步:查找排名-

  • Rank X 1 :所以,我们所做的是查看 X 1 的所有单个值并为其分配一个等级。例如,在这种情况下,最低值是 2,它的等级为 1,下一个最高值是 3,其等级为 2,依此类推。所以,我们对所有这些点进行了排名。请注意,第六个值和第一个值都是并列的。所以,他们得到 6.5 的排名(它的一半),因为有平局。类似地,如果有 2 个以上的值被绑定,我们将所有这些排名取平均值,并根据具有相同值的数据点的数量对它们进行平均,相应地,您必须给出排名。
  • Rank Y 1 :类似地,您可以以相同的方式对 Y 1 数据点进行排名。

第 2 步:计算 d 2
获得排名后,您可以计算排名的差异。因此,在这种情况下,第一个数据点的秩差为 2,我们将其平方,类似地,我们取 X i和 Y i之间秩中第二个数据点的差为 2 并将其平方,然后我们得到 4。所以,像这样,我们在等级上有所不同,通过对它进行平方,我们得到了我们称之为 d 平方值的最终值。我们对总体值求和,然后通过在上述公式中使用该值来计算 Spearman 系数。

By putting the value of the overall sum of d2 and n value

rho/rs = 1 - ((6 x 20.5) / 990)
    = 1 - (123 / 990)
    = 1 - 0.1242
    = 0.88

属性

  • r s取一个介于 -1(负关联)和 1(正关联)之间的值。
  • r s = 0 表示没有关联。
  • 当关联是非线性时可以使用它。
  • 它可以应用于序数变量。

Anscombe 数据的 Spearman 相关性:
Anscombe 的数据也称为 Anscombe 的四重奏,由四个数据集组成,这些数据集具有几乎相同的简单统计属性,但在绘制图形时却显得非常不同。每个数据集由十一个 (x, y) 点组成。它们由统计学家 Francis Anscombe 于 1973 年构建,以证明在分析数据之前绘制数据的重要性以及异常值对统计属性的影响。

此处给出了这 4 组 11 个数据点。请在此处下载 csv 文件。
当我们绘制这些点时,它看起来像这样。我在这里考虑 3 组 11 个数据点。

对上图的简要说明:
因此,如果我们对这些数据集中的每一个应用 Spearman 相关系数,我们会发现它几乎相同,无论您实际应用于第一个数据集(左上角)还是第二个数据集(右上角)或第三个数据集都没有关系数据集(左下)。因此,这似乎表明,如果我们应用 Spearman 相关性,并且在第一个数据集(左上角)的情况下,我们发现相当高的相关系数接近于 1。关键是在这里我们不能立即得出结论,如果 Spearman 相关系数会很高,那么它们之间存在线性关系,例如在第二个数据集(右上角)中,这是一个非线性关系,并且仍然会产生相当高的价值。