📅  最后修改于: 2023-12-03 15:34:20.637000             🧑  作者: Mango
Python|熊猫系列.diff()
是Pandas核心库提供的一个函数,它可以在两个DataFrame之间进行比较操作,并返回一个新的DataFrame,该DataFrame的每个单元都是两个DataFrame相应单元的比较结果。它可以用于比较两个数据集之间的差异,例如,在数据分析中,可以使用它来比较不同时间段或地点的数据集,以查看其差异。
pandas.DataFrame.diff(periods=1, axis=0, *args, **kwargs)
返回一个新的DataFrame,其中每个单元都是两个输入DataFrame相应单元的差异结果。
import pandas as pd
# 创建两个简单的DataFrame
df1 = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
})
df2 = pd.DataFrame({
'A': [2, 4, 6],
'B': [8, 10, 12],
'C': [14, 16, 18]
})
# 执行diff()操作
diff_df = df2.diff(periods=1)
# 输出差异结果
print(diff_df)
# 输出markdown格式
print(diff_df.to_markdown())
输出结果为:
A B C
0 NaN NaN NaN
1 2.0 2.0 2.0
2 2.0 2.0 2.0
| | A | B | C |
|---:|----:|----:|----:|
| 0 | nan | nan | nan |
| 1 | 2 | 2 | 2 |
| 2 | 2 | 2 | 2 |
在上述示例中,首先我们创建了两个简单的DataFrame:df1
和df2
。然后我们对df2
执行了diff()
操作,期望输出的结果是两个DataFrame之间的差异。
执行diff()
操作后,我们得到了一个新的DataFrame:diff_df
,其中每个单元都是df2
和df1
相应单元之间的差异。在这个新的DataFrame中,第一行由于没有前一个行,因此所有单元都为NaN
。第二行和第三行的单元依次计算为2,因为df2
中的每个单元都是df1
中相应单元的两倍。
最后,我们使用to_markdown()
函数输出了markdown格式的结果,以供分享和展示。