Python|熊猫系列.str.get_dummies()
Python是一种用于进行数据分析的出色语言,主要是因为以数据为中心的Python包的奇妙生态系统。 Pandas就是其中之一,它使导入和分析数据变得更加容易。
Pandas str.get_dummies()
用于在传递的分隔符处分隔调用者系列中的每个字符串。拆分每个字符串后,返回一个包含所有可能值的数据框。如果同一索引处原始数据框中的文本值包含字符串(列名/拆分值),则该位置的值为 1,否则为 0。
由于这是一个字符串操作,因此每次调用此函数之前都必须加上 .str前缀。否则会抛出错误。
Syntax: Series.str.get_dummies(sep=’|’)
Parameters:
sep: String value, separator to split strings at
Return type: Data frame with binary values only
要下载以下示例中使用的数据集,请单击此处。
在以下示例中,使用的数据框包含一些员工的数据。下面附上任何操作之前的数据帧图像。
示例 #1:在空格上分隔不同的字符串。
在此示例中,Team 列中的字符串已在“ ”(空白)处拆分,拆分后返回数据框以及所有可能的值。如果字符串(列名)存在于旧数据框中相同索引处的文本值中,则返回数据框中的值为 1。
Python3
# importing pandas
import pandas as pd
# making data frame from csv at url
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/employees.csv")
# making dataframe using get_dummies()
dummies = data["Team"].str.get_dummies(" ")
# display
dummies.head(10)
Python3
# importing pandas
import pandas as pd
# making data frame from csv at url
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/employees.csv")
# string for new column
string ="Hello gfg family"
# creating new column
data["New_column"]= string
# creating dummies
df = data["New_column"].str.get_dummies("g")
# display
df.head(10)
输出:
如输出图像所示,可以与数据帧的原始图像进行比较。如果字符串存在于同一索引处,则值为 1,否则为 0。
要点:
示例 #2:在多个点/静态值列处拆分
在此示例中,为新列(“Hello gfg family”)采用静态值。然后应用 get_dummies() 方法并在“g”处分隔字符串。由于“g”不止一次出现,因此会有不止一列,并且所有列中的值必须相同,因为所有行的字符串也相同。
Python3
# importing pandas
import pandas as pd
# making data frame from csv at url
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/employees.csv")
# string for new column
string ="Hello gfg family"
# creating new column
data["New_column"]= string
# creating dummies
df = data["New_column"].str.get_dummies("g")
# display
df.head(10)
输出:
如输出图像所示,新数据框有 3 列,每一行都有相同的值。