📅  最后修改于: 2023-12-03 14:56:27.146000             🧑  作者: Mango
皮尔逊相关系数(Pearson correlation coefficient),也称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),是用于度量两个变量之间的相关性的统计量。它是由数学家卡尔·皮尔逊(Karl Pearson)所发明的,通常用 r 表示。
皮尔逊相关系数可以用以下公式来计算:
r = cov(X,Y) / (std(X) * std(Y))
其中,cov 表示协方差,std 表示标准差。
皮尔逊相关系数是一种重要的统计量,广泛应用于数据分析、机器学习、人工智能等领域。它可以帮助我们发现变量之间的关系,从而做出更好的决策和预测。
在机器学习中,我们常常会用到皮尔逊相关系数来计算特征之间的相关性,从而选择出最优的特征集合。在数据分析中,我们也可以用皮尔逊相关系数来探索不同变量之间的关系,例如探究人口普查中不同变量与收入之间的相关性。
以下是一个 python 实现的皮尔逊相关系数计算示例:
import numpy as np
def pearson(x, y):
x_mean = np.mean(x)
y_mean = np.mean(y)
x_std = np.std(x, ddof=1)
y_std = np.std(y, ddof=1)
cov = np.cov(x, y, ddof=1)[0, 1]
return cov / (x_std * y_std)
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 7, 8])
print(f"Pearson correlation coefficient: {pearson(x, y)}")
输出:
Pearson correlation coefficient: 0.9649505048529271