📅  最后修改于: 2023-12-03 15:33:24.243000             🧑  作者: Mango
Pandas 是用于数据分析的 Python 库,其中有一种数据类型是分类数据类型,用于存储离散的、有限数量的数据值。相比于 Python 原生的字符串类型,使用 Pandas 分类数据类型可以提高代码的运行效率,并减少内存占用。
使用 Pandas 创建分类数据类型时,需要先将原数据类型的列转换为 Categorical 类型,再将该类型赋给 DataFrame 中的相关列。
import pandas as pd
# 创建 DataFrame 对象
df = pd.DataFrame({
'gender': ['male', 'female', 'female', 'male', 'male'],
'age': [21, 25, 19, 30, 27]
})
# 将 'gender' 列转换为 Categorical 类型
df['gender'] = pd.Categorical(df['gender'])
# 打印 DataFrame 对象
print(df)
输出结果为:
gender age
0 male 21
1 female 25
2 female 19
3 male 30
4 male 27
使用 describe()
方法可以对分类数据列进行描述性统计分析。
import pandas as pd
# 创建 DataFrame 对象
df = pd.DataFrame({
'gender': ['male', 'female', 'female', 'male', 'male'],
'age': [21, 25, 19, 30, 27]
})
# 将 'gender' 列转换为 Categorical 类型
df['gender'] = pd.Categorical(df['gender'])
# 对 'gender' 列进行描述性统计分析
print(df['gender'].describe())
输出结果为:
count 5
unique 2
top male
freq 3
Categories (2, object): ['female', 'male']
使用 sort_values()
方法可以对分类数据列进行排序操作。
import pandas as pd
# 创建 DataFrame 对象
df = pd.DataFrame({
'gender': ['male', 'female', 'female', 'male', 'male'],
'age': [21, 25, 19, 30, 27]
})
# 将 'gender' 列转换为 Categorical 类型
df['gender'] = pd.Categorical(df['gender'])
# 对 'gender' 列进行排序操作
df_sorted = df.sort_values(by=['gender'])
# 打印排序后的 DataFrame 对象
print(df_sorted)
输出结果为:
gender age
1 female 25
2 female 19
0 male 21
3 male 30
4 male 27
以上就是 Pandas 分类数据类型的介绍,它可以为数据分析带来更高效的数据处理和更优秀的结果。