📅  最后修改于: 2023-12-03 14:45:03.984000             🧑  作者: Mango
在 pandas 中,可以通过选择特定的 column 值来进行数据处理和分析。本文将介绍如何在 Python 中使用 pandas 按 column 值选择数据。
要选择单独的一列,可以使用以下代码:
import pandas as pd
# 创建一个简单的数据集
data = {'名字': ['小明', '小红', '小刚', '小李'],
'年龄': [20, 21, 22, 23],
'性别': ['男', '女', '男', '男']}
df = pd.DataFrame(data)
# 选择名字列
names = df['名字']
print(names)
输出结果为:
0 小明
1 小红
2 小刚
3 小李
Name: 名字, dtype: object
要选择多列,可以将需要的列名包含在一个列表中,并将这个列表传递给 []
操作符,如下所示:
import pandas as pd
# 创建一个简单的数据集
data = {'名字': ['小明', '小红', '小刚', '小李'],
'年龄': [20, 21, 22, 23],
'性别': ['男', '女', '男', '男']}
df = pd.DataFrame(data)
# 选择名字和年龄列
subset = df[['名字', '年龄']]
print(subset)
输出结果为:
名字 年龄
0 小明 20
1 小红 21
2 小刚 22
3 小李 23
pandas 的一个强大功能是按条件选择特定的行和列。例如,假设我们只想选择年龄大于 21 岁的人的姓名和年龄,可以使用以下代码:
import pandas as pd
# 创建一个简单的数据集
data = {'名字': ['小明', '小红', '小刚', '小李'],
'年龄': [20, 21, 22, 23],
'性别': ['男', '女', '男', '男']}
df = pd.DataFrame(data)
# 选择年龄大于 21 岁的姓名和年龄
subset = df.loc[df['年龄'] > 21, ['名字', '年龄']]
print(subset)
输出结果为:
名字 年龄
2 小刚 22
3 小李 23
pandas 提供了很多选取 column 的方法,可以让数据分析工作更加高效和简便。本文介绍了选择一列、选择多列和按条件选择的方法。