📜  合并数据框 - Python (1)

📅  最后修改于: 2023-12-03 14:50:40.231000             🧑  作者: Mango

合并数据框 - Python

在数据分析中,经常需要将多个数据框合并在一起。Python中有多种方法可以用来进行数据框的合并操作,比如merge、concatenate等。

1. merge

merge函数可以基于一个或多个键将数据框连接起来。默认情况下,merge函数会将两个数据框中共有的列作为键来进行合并。

import pandas as pd

# 创建两个数据框
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value1': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value2': [5, 6, 7, 8]})

# 通过key列进行合并
merged = pd.merge(df1, df2, on='key')

print(merged)

输出:

  key  value1  value2
0   B       2       5
1   D       4       6

可以看到,只有key列中存在于df1和df2的元素才会出现在合并后的数据框中。

除了可以传递列名作为键,还可以通过left_onright_on参数来指定键的列名。如果待合并的列名不同,也可以通过suffixes参数指定新的列名后缀。

# 创建两个数据框
df1 = pd.DataFrame({'id': [1, 2, 3, 4], 'value1': [1, 2, 3, 4]})
df2 = pd.DataFrame({'id': [2, 3, 4, 5], 'value2': [5, 6, 7, 8]})

# 指定对应的列名和新的列名后缀
merged = pd.merge(df1, df2, left_on='id', right_on='id', suffixes=('_left', '_right'))

print(merged)

输出:

   id  value1  value2
0   2       2       5
1   3       3       6
2   4       4       7
2. concatenate

concat函数可以将多个数据框按行或列进行拼接。其中,axis参数指定拼接方向,0表示按行拼接,1表示按列拼接。

# 创建三个数据框
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'], 'D': ['D4', 'D5', 'D6', 'D7']})
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'], 'B': ['B8', 'B9', 'B10', 'B11'], 'C': ['C8', 'C9', 'C10', 'C11'], 'D': ['D8', 'D9', 'D10', 'D11']})

# 按行拼接
result = pd.concat([df1, df2, df3], axis=0)

print(result)

输出:

     A    B    C    D
0   A0   B0   C0   D0
1   A1   B1   C1   D1
2   A2   B2   C2   D2
3   A3   B3   C3   D3
0   A4   B4   C4   D4
1   A5   B5   C5   D5
2   A6   B6   C6   D6
3   A7   B7   C7   D7
0   A8   B8   C8   D8
1   A9   B9   C9   D9
2  A10  B10  C10  D10
3  A11  B11  C11  D11
# 创建两个数据框
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'E': ['E0', 'E1', 'E2', 'E3'], 'F': ['F0', 'F1', 'F2', 'F3'], 'G': ['G0', 'G1', 'G2', 'G3'], 'H': ['H0', 'H1', 'H2', 'H3']})

# 按列拼接
result = pd.concat([df1, df2], axis=1)

print(result)

输出:

    A   B   C   D   E   F   G   H
0  A0  B0  C0  D0  E0  F0  G0  H0
1  A1  B1  C1  D1  E1  F1  G1  H1
2  A2  B2  C2  D2  E2  F2  G2  H2
3  A3  B3  C3  D3  E3  F3  G3  H3
3. join

join函数是merge函数的一种更为简便的写法。这两个函数在功能上基本相同。

# 创建两个数据框
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value1': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value2': [5, 6, 7, 8]})

# 通过key列进行合并
joined = df1.join(df2.set_index('key'), on='key')

print(joined)

输出:

  key  value1  value2
0   A       1     NaN
1   B       2     5.0
2   C       3     NaN
3   D       4     6.0
结论

数据框的合并是数据分析中非常常见的操作,掌握常用的合并函数可以帮助我们更快地进行数据处理和分析。在实际应用中,根据不同的数据类型和数据结构,我们可以选择不同的合并方法。