📅  最后修改于: 2023-12-03 15:26:08.457000             🧑  作者: Mango
在数据分析中,我们经常会遇到需要删除数据框中具有相同列值的重复行的情况。本文将介绍如何使用 Python 编程语言删除这些重复行。
假设我们有一个数据框,它包含多列数据,其中某些行的列值相同。我们需要将具有相同列值的重复行删除。
使用 pandas 库可以轻松删除数据框中的重复行。下面是删除重复行的代码片段:
import pandas as pd
# 创建数据框
data = {'food': ['pizza', 'burger', 'pizza'], 'price': [20, 10, 20]}
df = pd.DataFrame(data)
# 删除重复行
df.drop_duplicates(inplace=True)
# 打印数据框
print(df)
上述代码中,首先我们使用 pd.DataFrame()
函数创建了一个数据框。其中,每个元素的food列分别为"pizza","burger","pizza",price列分别为20,10,20。
接下来,我们使用 df.drop_duplicates()
函数删除重复行,该函数对列中的每个元素进行比较,并删除包含相同值的任何重复行。注意,使用参数 inplace=True
可以在原始数据框上执行操作,而无需创建新的数据框。最后,我们使用 print()
函数打印了数据框中的所有行。
运行上面的代码,输出结果如下:
food price
0 pizza 20
1 burger 10
使用 pandas 库,我们可以轻松删除数据框中的重复行。通过 df.drop_duplicates()
函数,我们可以删除包含相同列值的任何重复行。注意,使用 inplace=True
可以在原始数据框上执行操作,而无需创建新的数据框。