📜  Python|熊猫系列.str.get_dummies()(1)

📅  最后修改于: 2023-12-03 15:19:21.980000             🧑  作者: Mango

Python Pandas系列: str.get_dummies()

在Pandas中,str.get_dummies()函数用于将非数字列转换为数字列。 它将字符串列拆分为逗号分隔的值,并为每个值创建一个新的二进制列。

语法

函数的基本语法如下:

DataFrame.str.get_dummies(sep='|')

其中,参数sep是字符串中用于分隔值的字符。

参数

在get_dummies()函数中,可以使用以下参数:

  • sep: 字符串值分隔符。默认为'|'。
  • prefix: 添加到每个列名之前的前缀字符串。
  • prefix_sep: 添加到前缀和列名之间的分隔符,默认为'_'。
  • dummy_na: 是否在缺失值处添加一个列来指示缺失值。默认为False。
示例

假设我们有以下DataFrame:

import pandas as pd

data = {'name': ['Alice|Bob|Charlie', 'Alice|Charlie', 'Bob|Charlie', 'Charlie']}
df = pd.DataFrame(data)

print(df)

运行结果为:

                name
0  Alice|Bob|Charlie
1     Alice|Charlie
2       Bob|Charlie
3            Charlie

现在,我们可以使用get_dummies()函数将'name'列转换为数字列:

df = df['name'].str.get_dummies()

print(df)

运行结果:

   Alice  Bob  Charlie
0      1    1        1
1      1    0        1
2      0    1        1
3      0    0        1

我们可以看到,每个唯一的值都被分配一个新列,如果值存在则将其设置为1,如果不存在则将其设置为0。

总结

使用Pandas中的str.get_dummies()函数可以将非数字列转换为数字列。它将字符串列拆分为逗号分隔的值,并为每个值创建一个新的二进制列。此函数是处理分类变量数据的有用工具。