📅  最后修改于: 2023-12-03 15:03:28.189000             🧑  作者: Mango
Pandas
是一款基于 NumPy
的开源数据分析工具包,提供数据处理和数据分析的工具。Pandas DataFrame.corr()
方法用于计算两个 DataFrame 对象之间的 Pearson 系数,该系数通常用于度量两个变量之间的线性相关性。
DataFrame.corr(method='pearson', min_periods=1)
'pearson'
。可选值为 { 'pearson','kendall','spearman' }
,对应的是 Pearson 相关系数, Kendall Tau 相关系数,以及 Spearman 相关系数。在大多数情况下,使用默认的 Pearson 相关系数即可。 本方法的返回值是一个 DataFrame 对象,其中包含给定数据集中所有数值列之间的 Pearson 系数。
import pandas as pd
# 创建一个 DataFrame 对象
df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [2, 4, 6, 8, 10], 'z': [3, 6, 9, 12, 15]})
# 使用 .corr() 方法计算 Pearson 相关系数
correlation = df.corr()
# 输出相关系数矩阵
print(correlation)
上述代码首先创建了一个包含三列数据的 DataFrame 对象。然后使用 corr()
方法计算三列数据之间的 Pearson 相关系数,并将结果赋值给 correlation
。最后,打印出相关系数矩阵:
x y z
x 1.000000 1.000000 1.000000
y 1.000000 1.000000 1.000000
z 1.000000 1.000000 1.000000
注意,由于三列数据之间的线性相关性非常强,因此在相关系数矩阵中,所有元素都是 1。