pandas 组内的顺序编号 - Python (1)

📌 相关文章

📜 pandas 组内的顺序编号 - Python (1)

📅 最后修改于: 2023-12-03 15:18:15.387000 🧑 作者: Mango

Pandas 组内的顺序编号 - Python

Pandas 是 Python 中一个常用的数据分析库，它提供了丰富的数据结构和工具，使得数据分析变得更加高效和便捷。本文将介绍 Pandas 中如何对数据进行分组，并对每个组内的行进行唯一的顺序编号。

分组方法

在 Pandas 中，可以使用 groupby() 方法对数据进行分组。该方法根据指定的列或多列对数据进行分组，并返回一个分组对象。例如，可以按照某个列的值进行分组：

import pandas as pd

# 创建示例数据
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [10, 20, 30, 40, 50, 60, 70, 80]})

# 按照列A的值进行分组
grouped = df.groupby('A')

上述代码根据列A的值进行了分组，并将结果赋值给了变量grouped。此时，grouped是一个 Pandas 分组对象。

序号编号

在得到分组对象之后，可以使用 cumcount() 方法为组内的行进行唯一的顺序编号。此方法返回每个组内行的累计数量，从0开始计数。例如，可以对上述分组对象进行顺序编号：

# 对分组后的数据进行顺序编号
df['序号'] = grouped.cumcount()

上述代码将每个分组内的行进行了顺序编号，并将编号添加到了原始数据中的新列序号中。

完整代码示例

下面是完整的代码示例，其中包括了分组和顺序编号的代码：

import pandas as pd

# 创建示例数据
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [10, 20, 30, 40, 50, 60, 70, 80]})

# 按照列A的值进行分组
grouped = df.groupby('A')

# 对分组后的数据进行顺序编号
df['序号'] = grouped.cumcount()

print(df)

运行上述代码，将得到如下输出：

     A      B  C   D  序号
0  foo    one  1  10   0
1  bar    one  2  20   0
2  foo    two  3  30   1
3  bar  three  4  40   1
4  foo    two  5  50   2
5  bar    two  6  60   2
6  foo    one  7  70   3
7  foo  three  8  80   4

如上所示，原始数据中新增了一列序号，其中的每个值都表示该行在其所属分组中的顺序编号。

总结

Pandas 提供了便捷的方法对数据进行分组，并对每个组内的行进行唯一的顺序编号。该方法可用于对数据进行归类、排序等操作，是数据分析的常用技巧之一。