📜  Python|熊猫系列.str.get_dummies()

📅  最后修改于: 2022-05-13 01:54:42.973000             🧑  作者: Mango

Python|熊猫系列.str.get_dummies()

Python是一种用于进行数据分析的出色语言,主要是因为以数据为中心的Python包的奇妙生态系统。 Pandas就是其中之一,它使导入和分析数据变得更加容易。

Pandas str.get_dummies()用于在传递的分隔符处分隔调用者系列中的每个字符串。拆分每个字符串后,返回一个包含所有可能值的数据框。如果同一索引处原始数据框中的文本值包含字符串(列名/拆分值),则该位置的值为 1,否则为 0。

由于这是一个字符串操作,因此每次调用此函数之前都必须加上 .str前缀。否则会抛出错误。

要下载以下示例中使用的数据集,请单击此处。

在以下示例中,使用的数据框包含一些员工的数据。下面附上任何操作之前的数据帧图像。
示例 #1:在空格上分隔不同的字符串。

在此示例中,Team 列中的字符串已在“ ”(空白)处拆分,拆分后返回数据框以及所有可能的值。如果字符串(列名)存在于旧数据框中相同索引处的文本值中,则返回数据框中的值为 1。

Python3
# importing pandas
import pandas as pd
  
# making data frame from csv at url
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/employees.csv")
  
# making dataframe using get_dummies()
dummies = data["Team"].str.get_dummies(" ")
  
# display
dummies.head(10)


Python3
# importing pandas
import pandas as pd
  
# making data frame from csv at url
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/employees.csv")
  
# string for new column
string ="Hello gfg family"
  
# creating new column
data["New_column"]= string
  
# creating dummies
df = data["New_column"].str.get_dummies("g")
  
# display
df.head(10)


输出:
如输出图像所示,可以与数据帧的原始图像进行比较。如果字符串存在于同一索引处,则值为 1,否则为 0。
要点:

  • 如果字符串不为 null,则至少一列在同一索引处的值为 1。
  • 如果值为 null,则所有列在该索引处的值为 0(可以在上面示例中的第二个元素处看到)


    示例 #2:在多个点/静态值列处拆分

    在此示例中,为新列(“Hello gfg family”)采用静态值。然后应用 get_dummies() 方法并在“g”处分隔字符串。由于“g”不止一次出现,因此会有不止一列,并且所有列中的值必须相同,因为所有行的字符串也相同。

    Python3

    # importing pandas
    import pandas as pd
      
    # making data frame from csv at url
    data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/employees.csv")
      
    # string for new column
    string ="Hello gfg family"
      
    # creating new column
    data["New_column"]= string
      
    # creating dummies
    df = data["New_column"].str.get_dummies("g")
      
    # display
    df.head(10)
    

    输出:
    如输出图像所示,新数据框有 3 列,每一行都有相同的值。