📜  皮尔逊相关系数(1)

📅  最后修改于: 2023-12-03 14:56:27.146000             🧑  作者: Mango

皮尔逊相关系数介绍

皮尔逊相关系数(Pearson correlation coefficient),也称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),是用于度量两个变量之间的相关性的统计量。它是由数学家卡尔·皮尔逊(Karl Pearson)所发明的,通常用 r 表示。

公式

皮尔逊相关系数可以用以下公式来计算:

r = cov(X,Y) / (std(X) * std(Y))

其中,cov 表示协方差,std 表示标准差。

解释
  • 当 r = 1 时,表示两个变量完全正相关。
  • 当 r = -1 时,表示两个变量完全负相关。
  • 当 r = 0 时,表示两个变量没有相关性。
用途

皮尔逊相关系数是一种重要的统计量,广泛应用于数据分析、机器学习、人工智能等领域。它可以帮助我们发现变量之间的关系,从而做出更好的决策和预测。

在机器学习中,我们常常会用到皮尔逊相关系数来计算特征之间的相关性,从而选择出最优的特征集合。在数据分析中,我们也可以用皮尔逊相关系数来探索不同变量之间的关系,例如探究人口普查中不同变量与收入之间的相关性。

实例

以下是一个 python 实现的皮尔逊相关系数计算示例:

import numpy as np

def pearson(x, y):
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    x_std = np.std(x, ddof=1)
    y_std = np.std(y, ddof=1)
    cov = np.cov(x, y, ddof=1)[0, 1]
    return cov / (x_std * y_std)

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 7, 8])
print(f"Pearson correlation coefficient: {pearson(x, y)}")

输出:

Pearson correlation coefficient: 0.9649505048529271