📜  Pearson 积矩相关性(1)

📅  最后修改于: 2023-12-03 14:45:07.120000             🧑  作者: Mango

Pearson 积矩相关性

简介

Pearson 积矩相关性是一种衡量两个变量之间线性相关程度的统计量,通常用符号 r 表示。它的取值范围在 -1 到 1 之间,取值为 0 表示两个变量没有线性相关性,取值为 1 表示两个变量完全正相关,取值为 -1 表示两个变量完全负相关。

计算方法

Pearson 积矩相关性的计算方法如下:

$$ r = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} $$

其中,$x_i$ 和 $y_i$ 分别表示第 i 个样本的两个变量的取值,$\bar{x}$ 和 $\bar{y}$ 分别表示两个变量的样本均值,n 表示样本数量。

实现方法

在 Python 中,可以使用 Scipy 库中的 pearsonr 方法来计算 Pearson 积矩相关性。

from scipy.stats import pearsonr

# 两个变量的样本数据
x = [1, 2, 3, 4, 5]
y = [4, 2, 3, 1, 5]

# 计算 Pearson 积矩相关性
r, p_value = pearsonr(x, y)
print('Pearson correlation coefficient:', r)

其中,pearsonr 方法返回的第一个值 r 就是 Pearson 积矩相关性的值。

注意事项

在计算 Pearson 积矩相关性时,需要注意以下几点:

  • 两个变量的样本数据必须来自正态分布的总体。
  • Pearson 积矩相关性只能反映两个变量之间的线性关系,无法反映非线性关系。
  • Pearson 积矩相关性只能反映两个变量之间的相关程度,不能推断因果关系。