如何在 Excel 中使用相关性?
相关性是一个来自统计背景的概念。在统计术语中,相关性可以定义为两个实体之间的线性关联。简单来说,可以理解为一个实体的变化导致另一个实体的比例变化多少。很多时候,相关性经常与统计中另一个流行的术语因果混淆。要区分和澄清,必须了解,相关性不会导致第二个实体的值发生变化 当第一个实体的值发生变化时,反之亦然。
让我们通过一个例子来理解这种差异。人们经常观察到,在夏季,一个城市的犯罪率通常会增加,而且在夏季,冰淇淋的销售量也会增加。我们可以很容易地理解,由于气温升高,人们往往更喜欢凉爽的食物来放松身心,从而导致冰淇淋销量增加。因此,这是因果关系的一个常见原因,而当我们将冰淇淋销售量的增加与夏季犯罪率的增加进行比较时,两者是相关的,但其中一个不是另一个原因。
现在,两个实体之间可能存在正相关或负相关。相关程度通常使用名为Pearson Correlation coefficient的相关系数给出,该系数以给出相关概念的 Karl Pearson 命名。皮尔逊系数的统计公式如下:
其中 x 和 y 是两个独立的实体,Cov(x,y) 是两个实体 x 和 y 之间的协方差,σ x和 σ y分别是 x 和 y 的标准差。要了解有关数学方程式及其使用方式的更多信息,您可以参考 https://www.geeksforgeeks.org
Excel 中的相关性
相关系数的取值范围为 -1 到 +1。该值越接近 -1 或 +1,两个实体之间的相关性越强。如果相关系数为0,我们说两个实体之间没有线性关系。让我们借助一个示例来理解这一点,在这个示例中,我们将使用 Excel 计算 Pearson 相关系数。假设我们有一个班级 10 名学生的身高和体重记录,如下所示: 155 66 178 82 148 62 162 70 165 71 172 74 158 64 152 65 176 80 185 93Height (in cm) Weight (in Kg)
我们可以使用两种方法在 Excel 中计算相关性:
方法一:使用 CORREL()函数
Excel 有一个内置的 CORREL()函数,可用于计算 Pearson 相关系数。 CORREL() 的基本语法如下:
=CORREL(array1, array2)
其中array1和array2分别是第一个实体和第二个实体的记录数组。
步骤 1:我们可以使用 A13 单元格中应用的公式计算两个属性之间的相关系数,即
=CORREL(A2:A11, B2:B11)
我们将 A2:A11 中的第一个数组 Height(以 cm 为单位)作为第一个参数,将 B2:B11 中的第二个数组 Weight(以 kg 为单位)作为 CORREL() 公式中的第二个参数。
计算相关系数后得到的值为0.959232649,非常接近+1,由此可以得出学生身高和体重高度正相关的结论。我们可能会说,如果一个学生更高,那么该学生体重也更高的可能性就更高。
下面还提供了一个视频,演示了使用 CORREL()函数计算相关值的所有用法。
方法二:使用数据分析工具
第 1 步:在菜单栏中,选择“数据”选项卡。
第 2 步:从数据选项卡中,选择数据分析选项。
第三步:会出现一个数据分析工具对话框,在对话框中选择相关选项。
第4步:会出现一个额外的关联对话框,在对话框中我们首先要给出输入范围,所以选择整个表。由于我们的数据按列分组,我们将选择“列”选项。此外,我们的数据在第一行有标签,因此我们将单击“第一行中的标签”复选框。我们可以根据我们的要求在当前工作表或新工作表或新工作簿中获得输出。我们可以选择新的工作表选项,然后单击确定按钮。
第 5 步:输出将在新工作表中自动生成。
下面还提供了一个视频,演示了上面给出的计算相关值的所有上述步骤。
从新的工作表中,我们可以注意到将生成一个相关表,其中我们可以看到我们的身高和体重之间的相关值为0.959232649 ,这也是我们使用第一种方法得到的。