📅  最后修改于: 2023-12-03 14:50:40.231000             🧑  作者: Mango
在数据分析中,经常需要将多个数据框合并在一起。Python中有多种方法可以用来进行数据框的合并操作,比如merge、concatenate等。
merge
函数可以基于一个或多个键将数据框连接起来。默认情况下,merge
函数会将两个数据框中共有的列作为键来进行合并。
import pandas as pd
# 创建两个数据框
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value1': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value2': [5, 6, 7, 8]})
# 通过key列进行合并
merged = pd.merge(df1, df2, on='key')
print(merged)
输出:
key value1 value2
0 B 2 5
1 D 4 6
可以看到,只有key列中存在于df1和df2的元素才会出现在合并后的数据框中。
除了可以传递列名作为键,还可以通过left_on
和right_on
参数来指定键的列名。如果待合并的列名不同,也可以通过suffixes
参数指定新的列名后缀。
# 创建两个数据框
df1 = pd.DataFrame({'id': [1, 2, 3, 4], 'value1': [1, 2, 3, 4]})
df2 = pd.DataFrame({'id': [2, 3, 4, 5], 'value2': [5, 6, 7, 8]})
# 指定对应的列名和新的列名后缀
merged = pd.merge(df1, df2, left_on='id', right_on='id', suffixes=('_left', '_right'))
print(merged)
输出:
id value1 value2
0 2 2 5
1 3 3 6
2 4 4 7
concat
函数可以将多个数据框按行或列进行拼接。其中,axis
参数指定拼接方向,0表示按行拼接,1表示按列拼接。
# 创建三个数据框
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'], 'D': ['D4', 'D5', 'D6', 'D7']})
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'], 'B': ['B8', 'B9', 'B10', 'B11'], 'C': ['C8', 'C9', 'C10', 'C11'], 'D': ['D8', 'D9', 'D10', 'D11']})
# 按行拼接
result = pd.concat([df1, df2, df3], axis=0)
print(result)
输出:
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
0 A4 B4 C4 D4
1 A5 B5 C5 D5
2 A6 B6 C6 D6
3 A7 B7 C7 D7
0 A8 B8 C8 D8
1 A9 B9 C9 D9
2 A10 B10 C10 D10
3 A11 B11 C11 D11
# 创建两个数据框
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'E': ['E0', 'E1', 'E2', 'E3'], 'F': ['F0', 'F1', 'F2', 'F3'], 'G': ['G0', 'G1', 'G2', 'G3'], 'H': ['H0', 'H1', 'H2', 'H3']})
# 按列拼接
result = pd.concat([df1, df2], axis=1)
print(result)
输出:
A B C D E F G H
0 A0 B0 C0 D0 E0 F0 G0 H0
1 A1 B1 C1 D1 E1 F1 G1 H1
2 A2 B2 C2 D2 E2 F2 G2 H2
3 A3 B3 C3 D3 E3 F3 G3 H3
join
函数是merge
函数的一种更为简便的写法。这两个函数在功能上基本相同。
# 创建两个数据框
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value1': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value2': [5, 6, 7, 8]})
# 通过key列进行合并
joined = df1.join(df2.set_index('key'), on='key')
print(joined)
输出:
key value1 value2
0 A 1 NaN
1 B 2 5.0
2 C 3 NaN
3 D 4 6.0
数据框的合并是数据分析中非常常见的操作,掌握常用的合并函数可以帮助我们更快地进行数据处理和分析。在实际应用中,根据不同的数据类型和数据结构,我们可以选择不同的合并方法。