📅  最后修改于: 2023-12-03 15:18:15.805000             🧑  作者: Mango
pandas.get_dummies()
是一种用于将分类变量转换为哑变量的方法,即将具有categorical数据类型的数据进行二进制编码。它们常用于机器学习算法中,如逻辑回归和神经网络,它们要求输入变量是数字类型而不是分类类型。
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
data
: 需要转换的DataFrame,Series,数组或列表等数据结构。prefix
: 返回的哑变量DataFrame中列名的前缀;prefix_sep
: 分隔符,将 prefix
与哑变量名进行分隔,默认为 _
;dummy_na
: 如果数据中有空值(nan),则创建一个新的虚拟变量列并将为null的转换为1,否则它们为0;columns
: 列名的list,当DataFrame有多列需要转换时使用;sparse
: 返回稀疏矩阵;drop_first
: 获取k
的哑变量列,而不是k-1
列;dtype
: 指示返回DataFrame中列的数据类型,可以是float或int。哑变量DataFrame。
import pandas as pd
df = pd.DataFrame({'gender': ['Female', 'Male', 'Female'], 'color': ['Red', 'Blue', 'Green']})
dummies = pd.get_dummies(df)
print(dummies)
输出:
gender_Female gender_Male color_Blue color_Green color_Red
0 1 0 0 0 1
1 0 1 1 0 0
2 1 0 0 1 0
在上述示例中,我们提供了一个包含两列 gender
和 color
的DataFrame。然后,我们使用 pd.get_dummies()
将这些列转换为哑变量。输出结果是一个新的DataFrame 包含 gender
和 color
的哑变量。