📅  最后修改于: 2023-12-03 14:45:02.717000             🧑  作者: Mango
Pandas merge()函数是Pandas库中最常用的函数之一,用于将不同数据集的数据以某种方式进行组合和合并,可根据一些相同的列或索引将它们连接到一起。数据合并是数据处理和分析过程中的重要步骤之一,因此掌握该函数使用方法非常必要。
merge()函数的语法如下:
pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'),
copy=True, indicator=False, validate=None)
其中:
以下为一个简单的示例,对两个数据集进行内部连接(inner join):
import pandas as pd
# 定义第一个数据集
df1 = pd.DataFrame({
'name': ['John', 'Tom', 'Sarah'],
'age': [22, 25, 27],
'gender': ['M', 'M', 'F']
})
# 定义第二个数据集
df2 = pd.DataFrame({
'name': ['John', 'Tom', 'Anna'],
'province': ['Shanghai', 'Beijing', 'Guangdong'],
'income': [20000, 15000, 10000]
})
# Inner Join,以‘name’为关键字
df3 = pd.merge(df1, df2, on='name', how='inner')
print(df3)
执行以上代码,输出结果如下:
name age gender province income
0 John 22 M Shanghai 20000
1 Tom 25 M Beijing 15000
以上代码将根据这两个数据集中共同的名字列名进行连接,并显示他们的年龄,性别,省份和收入。因为只有 John 和 Tom 出现在两个表格中,所以只返回了两个记录。
Pandas merge()函数是一个非常有用的函数,可用于合并不同的数据集,进而进行分析。在数据分析中,我们经常需要将多个数据表进行合并,这个时候,Pandas merge()函数是一个非常方便、实用的函数。使用merge()函数可能看起来有点复杂,但是只要理解了用法,你就会发现它是一个非常强大的工具,可以帮助你处理各种类型的数据。