📜  两列之间的 Pearson 相关系数 (1)

📅  最后修改于: 2023-12-03 15:21:34.261000             🧑  作者: Mango

两列之间的 Pearson 相关系数

简介

在统计学中,Pearson 相关系数是一种衡量两个变量之间线性相关程度的方法。这个方法之所以被大量使用,是因为它在统计学上具有多种有用的性质,如其范围为 -1 到 1,其结果易于解释,且Pearson 相关系数可以被用于许多其他统计学领域。

计算公式

两个变量样本之间的 Pearson 相关系数可以由以下公式计算得出:

其中,x 和 y 是两列数据的样本数据;n 表示该对样本数据的数量;x̄ 和 ȳ 分别是数据集的平均值。

含义

Pearson 相关系数可以发现两个变量之间的线性相关关系,它的值介于 -1 和 1 之间。当系数为 1 时,两个变量呈现完全正相关;当系数为 -1 时,则呈现完全负相关;当系数等于 0 时,两个变量不相关。

代码示例
Python
import numpy as np

def pearson(x, y):
    # 计算x和y的平均值
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    
    # 计算Pearson相关系数的分子和分母
    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator = np.sqrt(np.sum((x - x_mean)**2) * np.sum((y - y_mean)**2))
    
    # 计算Pearson相关系数
    pearson_coefficient = numerator / denominator
    
    return pearson_coefficient

# 两组数据
x = np.array([35, 45, 60, 70])
y = np.array([3, 5, 7, 10])

# 计算Pearson相关系数
coeff = pearson(x, y)

print('Pearson Correlation Coefficient: {:.3f}'.format(coeff))
R
# 两组数据
x <- c(35, 45, 60, 70)
y <- c(3, 5, 7, 10)

# 计算Pearson相关系数
coeff <- cor(x, y, method = 'pearson')

cat('Pearson Correlation Coefficient:', round(coeff, 3))