📅  最后修改于: 2023-12-03 14:46:30.555000             🧑  作者: Mango
在进行数据分析时,对于两列数据之间的相关关系,我们通常使用相关系数(correlation coefficient)来衡量。 相关系数的值介于-1与+1之间,其绝对值越大,则代表相关性越强。Pandas中的Series对象提供了corr()方法,用于计算数据序列之间的相关系数。
Series.corr(other, method=None, min_periods=None)
pearson
、kendall
和spearman
三种。默认为pearson
。None
,表示使用所有非空的数据值。other
是DataFrame,则返回Series,包含与该Series相关的每个DataFrame列的相关系数。如果other
是Series,则返回与该Series的相关系数。import pandas as pd
# 创建两个Series对象
data1 = pd.Series([1, 2, 3, 4, 5])
data2 = pd.Series([2, 4, 6, 8, 10])
# 计算data1和data2的相关系数
print(data1.corr(data2)) # 输出:1.0
以上示例中,data1和data2之间存在线性关系,相关系数为1。
import pandas as pd
# 创建DataFrame对象
data = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [2, 4, 6, 8, 10]})
# 计算data中所有列的相关系数
print(data.corr()) # 输出:
# A B
# A 1.000000 1.0
# B 1.000000 1.0
以上示例中,data的两列数据之间存在线性关系,相关系数都为1。