📅  最后修改于: 2023-12-03 15:33:23.618000             🧑  作者: Mango
在 Pandas 中,使用 groupby()
函数可以按照给定的列对数据进行分组,并通过不同的聚合函数(如 sum()
、mean()
、count()
等)对分组后的数据进行分析。本文将介绍如何使用 groupby()
函数计算某一列的不同取值的数量。
假设我们有一个包含多个国家和城市信息的数据集,其中每个行代表一个城市的信息,包括国家、城市和人口等等。我们想统计每个国家中有多少个不同的城市。首先,我们需要导入 Pandas 库并读取数据集。
import pandas as pd
# 读取数据集
data = pd.read_csv("path/to/data/file.csv")
接下来,我们可以使用 groupby()
函数,将数据按国家进行分组,并使用 nunique()
函数计算每个国家中不同城市的数量。
# 计算每个国家中不同城市的数量
cities_count = data.groupby("Country")["City"].nunique()
print(cities_count)
输出结果将为每个国家不同城市的数量,例如:
Country
China 15
India 12
USA 10
...
此处,我们将数据按国家列进行聚合,并对城市列应用 nunique()
函数,该函数将计算每个国家中不同城市的数量。最后,我们可以将结果保存在一个变量中,以备进一步处理或分析。
这就是使用 groupby()
函数计算某一列的不同取值数量的一个简单例子。在 Pandas 中,groupby()
函数非常强大,可用于各种类型的数据分析和聚合操作。通过灵活的聚合函数和分组方式,可以轻松地实现复杂的数据计算和分析。