📜  pandas groupby column count distinct values - Python (1)

📅  最后修改于: 2023-12-03 15:33:23.618000             🧑  作者: Mango

Pandas groupby column count distinct values - Python

在 Pandas 中,使用 groupby() 函数可以按照给定的列对数据进行分组,并通过不同的聚合函数(如 sum()mean()count() 等)对分组后的数据进行分析。本文将介绍如何使用 groupby() 函数计算某一列的不同取值的数量。

假设我们有一个包含多个国家和城市信息的数据集,其中每个行代表一个城市的信息,包括国家、城市和人口等等。我们想统计每个国家中有多少个不同的城市。首先,我们需要导入 Pandas 库并读取数据集。

import pandas as pd

# 读取数据集
data = pd.read_csv("path/to/data/file.csv")

接下来,我们可以使用 groupby() 函数,将数据按国家进行分组,并使用 nunique() 函数计算每个国家中不同城市的数量。

# 计算每个国家中不同城市的数量
cities_count = data.groupby("Country")["City"].nunique()

print(cities_count)

输出结果将为每个国家不同城市的数量,例如:

Country
China       15
India       12
USA         10
...

此处,我们将数据按国家列进行聚合,并对城市列应用 nunique() 函数,该函数将计算每个国家中不同城市的数量。最后,我们可以将结果保存在一个变量中,以备进一步处理或分析。

这就是使用 groupby() 函数计算某一列的不同取值数量的一个简单例子。在 Pandas 中,groupby() 函数非常强大,可用于各种类型的数据分析和聚合操作。通过灵活的聚合函数和分组方式,可以轻松地实现复杂的数据计算和分析。