📜  以 Python 开头的 pandas 列(1)

📅  最后修改于: 2023-12-03 14:49:30.472000             🧑  作者: Mango

以 Python 开头的 pandas 列

在使用 Python 进行数据处理和分析时,pandas 是一个功能强大且广泛使用的库。pandas 提供了 DataFrame 数据结构,它类似于电子表格,可以轻松地处理和操作数据集。

在 pandas 中,列是 DataFrame 中的一个重要组成部分。处理和操作列是进行数据分析的关键步骤之一。以下是一些 pandas 列的常见操作和技巧。

创建一个 DataFrame

首先,让我们创建一个包含一些列的简单 DataFrame。我们将使用以下代码创建一个 DataFrame,其中包含姓名、年龄和城市三个列。

import pandas as pd

data = {
    '姓名': ['Alice', 'Bob', 'Charlie', 'David'],
    '年龄': [25, 30, 35, 40],
    '城市': ['北京', '上海', '广州', '深圳']
}

df = pd.DataFrame(data)

这将创建一个名为 df 的 DataFrame,它包含了三列:姓名年龄城市

访问列数据

要访问 DataFrame 中的列数据,可以使用列名称作为关键字或属性。以下是两种访问 姓名 列数据的方法:

# 使用列名称作为关键字
names = df['姓名']

# 使用属性方式
ages = df.年龄
添加新列

要向 DataFrame 中添加一个新列,可以直接为 DataFrame 分配一个新的列,或者使用 df.insert() 方法在指定位置插入新列。

# 直接为 DataFrame 分配一个新的列
df['性别'] = ['女', '男', '男', '男']

# 使用 insert() 方法插入新列
df.insert(1, '学历', ['本科', '硕士', '博士', '本科'])

这将分别添加 性别学历 列到 DataFrame 中。

删除列

要删除 DataFrame 中的列,可以使用 df.drop() 方法。传递要删除的列名称和 axis=1 参数即可。

# 删除 '年龄' 列
df = df.drop('年龄', axis=1)

# 也可以使用 del 关键字删除列
del df['城市']
列的统计摘要

通过 pandas 的列,我们可以很方便地进行统计摘要,并获取关于数据的基本信息。以下是一些常见的列统计方法示例:

# 计算 '年龄' 列的平均值
average_age = df['年龄'].mean()

# 计算 '年龄' 列的中位数
median_age = df['年龄'].median()

# 计算 '年龄' 列的最大值
max_age = df['年龄'].max()

# 计算 '年龄' 列的最小值
min_age = df['年龄'].min()

# 计算 '年龄' 列的标准差
std_dev = df['年龄'].std()
对列进行排序

使用 df.sort_values() 方法可以根据列的值对 DataFrame 进行排序。以下是一个根据 '年龄' 列进行排序的示例:

# 根据 '年龄' 列升序排序
df_sorted = df.sort_values('年龄')

# 根据 '年龄' 列降序排序
df_sorted_desc = df.sort_values('年龄', ascending=False)
将列数据转换为其他数据类型

有时候,需要将列数据的类型从一个类型转换为另一个类型。pandas 提供了一些方法来实现这一点。以下是一些常见的列转换方法的示例:

# 将 '年龄' 列转换为浮点型
df['年龄'] = df['年龄'].astype(float)

# 将 '城市' 列转换为列表
df['城市'] = df['城市'].apply(list)

# 将 '性别' 列转换为分类数据类型
df['性别'] = df['性别'].astype('category')

以上是一些以 Python 开头的 pandas 列的常见操作和技巧。pandas 提供了丰富的功能,使得处理和分析数据变得更加简单和高效。详细的 pandas 文档和示例可以在 pandas 官方网站 上找到。