📜  Pandas 分类数据类型 - Python (1)

📅  最后修改于: 2023-12-03 15:33:24.243000             🧑  作者: Mango

Pandas 分类数据类型 - Python

Pandas 是用于数据分析的 Python 库,其中有一种数据类型是分类数据类型,用于存储离散的、有限数量的数据值。相比于 Python 原生的字符串类型,使用 Pandas 分类数据类型可以提高代码的运行效率,并减少内存占用。

创建分类数据类型

使用 Pandas 创建分类数据类型时,需要先将原数据类型的列转换为 Categorical 类型,再将该类型赋给 DataFrame 中的相关列。

import pandas as pd

# 创建 DataFrame 对象
df = pd.DataFrame({
    'gender': ['male', 'female', 'female', 'male', 'male'],
    'age': [21, 25, 19, 30, 27]
})

# 将 'gender' 列转换为 Categorical 类型
df['gender'] = pd.Categorical(df['gender'])

# 打印 DataFrame 对象
print(df)

输出结果为:

   gender  age
0    male   21
1  female   25
2  female   19
3    male   30
4    male   27
分类数据的描述

使用 describe() 方法可以对分类数据列进行描述性统计分析。

import pandas as pd

# 创建 DataFrame 对象
df = pd.DataFrame({
    'gender': ['male', 'female', 'female', 'male', 'male'],
    'age': [21, 25, 19, 30, 27]
})

# 将 'gender' 列转换为 Categorical 类型
df['gender'] = pd.Categorical(df['gender'])

# 对 'gender' 列进行描述性统计分析
print(df['gender'].describe())

输出结果为:

count       5
unique      2
top       male
freq        3
Categories (2, object): ['female', 'male']
分类数据的排序

使用 sort_values() 方法可以对分类数据列进行排序操作。

import pandas as pd

# 创建 DataFrame 对象
df = pd.DataFrame({
    'gender': ['male', 'female', 'female', 'male', 'male'],
    'age': [21, 25, 19, 30, 27]
})

# 将 'gender' 列转换为 Categorical 类型
df['gender'] = pd.Categorical(df['gender'])

# 对 'gender' 列进行排序操作
df_sorted = df.sort_values(by=['gender'])

# 打印排序后的 DataFrame 对象
print(df_sorted)

输出结果为:

   gender  age
1  female   25
2  female   19
0    male   21
3    male   30
4    male   27

以上就是 Pandas 分类数据类型的介绍,它可以为数据分析带来更高效的数据处理和更优秀的结果。