📅  最后修改于: 2023-12-03 14:46:06.582000             🧑  作者: Mango
Pandas 是一个用于数据处理和分析的 Python 库,其中最基本的数据结构就是 DataFrame。DataFrame 是一个二维标记数组,其列可以有不同的数据类型(如整数、浮点数、字符等),类似于 Excel 或 SQL 表格。
可以通过以下方式来创建 DataFrame:
import pandas as pd
# 从列表创建 DataFrame
data_list = [["小明", 20, "男"],
["小红", 21, "女"],
["小刚", 22, "男"]]
df = pd.DataFrame(data_list, columns=["姓名", "年龄", "性别"])
print(df)
# 输出
# 姓名 年龄 性别
# 0 小明 20 男
# 1 小红 21 女
# 2 小刚 22 男
通过从列表创建 DataFrame,可以指定列的名称和行数据。
# 从字典创建 DataFrame
data_dict = {"姓名": ["小明", "小红", "小刚"],
"年龄": [20, 21, 22],
"性别": ["男", "女", "男"]}
df = pd.DataFrame(data_dict)
print(df)
# 输出
# 姓名 年龄 性别
# 0 小明 20 男
# 1 小红 21 女
# 2 小刚 22 男
也可以从字典创建 DataFrame,这种方式可以自动按照字典的键来确定列名。
DataFrame 中的数据可以通过以下方式进行查看:
# 查看 DataFrame 中头部的几行数据
print(df.head())
# 输出前两行
# 姓名 年龄 性别
# 0 小明 20 男
# 1 小红 21 女
# 查看 DataFrame 中尾部的几行数据
print(df.tail())
# 输出后两行
# 姓名 年龄 性别
# 1 小红 21 女
# 2 小刚 22 男
# 查看 DataFrame 中的列名称
print(df.columns)
# 输出 ['姓名', '年龄', '性别']
# 查看 DataFrame 中的所有数据,不过要注意 DataFrame 的大小,避免输出太多数据
print(df.values)
# 输出
# array([['小明', 20, '男'],
# ['小红', 21, '女'],
# ['小刚', 22, '男']], dtype=object)
可以通过以下方式对 DataFrame 进行操作:
# 获取 DataFrame 中的某一列
print(df["姓名"])
# 输出
# 0 小明
# 1 小红
# 2 小刚
# Name: 姓名, dtype: object
# 在 DataFrame 中新增一列
df["国家"] = ["中国", "美国", "英国"]
print(df)
# 输出
# 姓名 年龄 性别 国家
# 0 小明 20 男 中国
# 1 小红 21 女 美国
# 2 小刚 22 男 英国
# 选择符合条件的数据行
print(df[df["年龄"] > 20])
# 输出
# 姓名 年龄 性别 国家
# 1 小红 21 女 美国
# 2 小刚 22 男 英国
以上是 DataFrame 的基本操作,还有很多其他的操作方式可以通过 Pandas 来完成。