📅  最后修改于: 2023-12-03 15:04:22.012000             🧑  作者: Mango
Pandas是Python中的一个强大的数据处理库,它提供了一种称为Series的数据结构,可以被用作一维数组或类似字典的对象。Series对象具有许多数据处理函数,其中一些可用于提取文本数据或按规则对其进行分割。Series.str.extractall()是其中的一种函数,可以从每个匹配的字符串中提取多个分组,并将其返回到DataFrame中。
Series.str.extractall(pat, flags=0)
此函数将返回一个由多级索引的DataFrame对象。每行表示一个匹配项,每列表示一个正则表达式的分组。
import pandas as pd
s = pd.Series(['hello 123', 'world 456'])
s.str.extractall('(\w+) (\d+)')
输出:
0 1
match
0 0 hello 123
1 world 456
上面的示例中,Series.str.extractall()使用正则表达式提取每个字符串中的单词和数字。结果是一个由两个分组组成的DataFrame对象,其中每个匹配项都表示为一行。