📅  最后修改于: 2023-12-03 15:19:21.032000             🧑  作者: Mango
在 Python 中,pandas 是最流行的数据分析库之一。它提供了多种数据结构和数据处理工具,其中 DataFrame 是其中最常用的。在 pandas 中,可以使用 corrwith()
方法计算 DataFrame 中每一列之间的相关性。
DataFrame.corrwith(self, other, axis=0, drop=False, method='pearson')
self
:要进行处理的 DataFrame。other
:相关系数被计算的其他 DataFrame。axis
:计算相关系数时应该沿着哪个方向进行。默认是沿着行计算,也就是 axis=0。drop
:如果在计算相关系数的过程中遇到了缺失值,是否应该将这些缺失值删除。默认是 False,也就是保留缺失值。method
:使用哪种方法计算相关系数。支持 Pearson 协方差、Spearman 等等。默认是 Pearson 协方差。import pandas as pd
# 创建 DataFrame
df1 = pd.DataFrame([['A', 1, 2], ['B', 3, 4], ['C', 2, 1]], columns=['Name', 'Salary', 'Experience'])
df2 = pd.DataFrame([['A', 2, 3], ['B', 4, 5], ['C', 1, 2]], columns=['Name', 'Salary', 'Experience'])
# 计算 'Salary' 列之间的相关系数
corr = df1['Salary'].corr(df2['Salary'])
print(corr)
# 计算整个 DataFrame 之间的相关系数
corr = df1.corrwith(df2)
print(corr)
输出:
0.9819805060619658
Salary 0.981981
Experience -0.981981
dtype: float64
通过使用 corrwith()
方法,可以轻松地计算 DataFrame 中列与列之间的相关系数。这对于数据分析、机器学习等领域都非常有用,因为相关系数可以用来衡量变量之间的关系强度。