📅  最后修改于: 2023-12-03 15:21:34.261000             🧑  作者: Mango
在统计学中,Pearson 相关系数是一种衡量两个变量之间线性相关程度的方法。这个方法之所以被大量使用,是因为它在统计学上具有多种有用的性质,如其范围为 -1 到 1,其结果易于解释,且Pearson 相关系数可以被用于许多其他统计学领域。
两个变量样本之间的 Pearson 相关系数可以由以下公式计算得出:
其中,x 和 y 是两列数据的样本数据;n 表示该对样本数据的数量;x̄ 和 ȳ 分别是数据集的平均值。
Pearson 相关系数可以发现两个变量之间的线性相关关系,它的值介于 -1 和 1 之间。当系数为 1 时,两个变量呈现完全正相关;当系数为 -1 时,则呈现完全负相关;当系数等于 0 时,两个变量不相关。
import numpy as np
def pearson(x, y):
# 计算x和y的平均值
x_mean = np.mean(x)
y_mean = np.mean(y)
# 计算Pearson相关系数的分子和分母
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sqrt(np.sum((x - x_mean)**2) * np.sum((y - y_mean)**2))
# 计算Pearson相关系数
pearson_coefficient = numerator / denominator
return pearson_coefficient
# 两组数据
x = np.array([35, 45, 60, 70])
y = np.array([3, 5, 7, 10])
# 计算Pearson相关系数
coeff = pearson(x, y)
print('Pearson Correlation Coefficient: {:.3f}'.format(coeff))
# 两组数据
x <- c(35, 45, 60, 70)
y <- c(3, 5, 7, 10)
# 计算Pearson相关系数
coeff <- cor(x, y, method = 'pearson')
cat('Pearson Correlation Coefficient:', round(coeff, 3))