📜  pandas.get_dummies - Python (1)

📅  最后修改于: 2023-12-03 15:18:15.805000             🧑  作者: Mango

pandas.get_dummies介绍

pandas.get_dummies() 是一种用于将分类变量转换为哑变量的方法,即将具有categorical数据类型的数据进行二进制编码。它们常用于机器学习算法中,如逻辑回归和神经网络,它们要求输入变量是数字类型而不是分类类型。

语法
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
参数
  • data: 需要转换的DataFrame,Series,数组或列表等数据结构。
  • prefix: 返回的哑变量DataFrame中列名的前缀;
  • prefix_sep: 分隔符,将 prefix 与哑变量名进行分隔,默认为 _
  • dummy_na: 如果数据中有空值(nan),则创建一个新的虚拟变量列并将为null的转换为1,否则它们为0;
  • columns: 列名的list,当DataFrame有多列需要转换时使用;
  • sparse: 返回稀疏矩阵;
  • drop_first: 获取k的哑变量列,而不是k-1列;
  • dtype: 指示返回DataFrame中列的数据类型,可以是float或int。
返回值

哑变量DataFrame。

示例
import pandas as pd

df = pd.DataFrame({'gender': ['Female', 'Male', 'Female'], 'color': ['Red', 'Blue', 'Green']})
dummies = pd.get_dummies(df)
print(dummies)

输出:

   gender_Female  gender_Male  color_Blue  color_Green  color_Red
0              1            0           0            0          1
1              0            1           1            0          0
2              1            0           0            1          0

在上述示例中,我们提供了一个包含两列 gendercolor 的DataFrame。然后,我们使用 pd.get_dummies() 将这些列转换为哑变量。输出结果是一个新的DataFrame 包含 gendercolor 的哑变量。