📜  Python | Pandas 数据 DataFrame(1)

📅  最后修改于: 2023-12-03 14:46:06.582000             🧑  作者: Mango

Python | Pandas 数据 DataFrame

介绍

Pandas 是一个用于数据处理和分析的 Python 库,其中最基本的数据结构就是 DataFrame。DataFrame 是一个二维标记数组,其列可以有不同的数据类型(如整数、浮点数、字符等),类似于 Excel 或 SQL 表格。

创建 DataFrame

可以通过以下方式来创建 DataFrame:

import pandas as pd

# 从列表创建 DataFrame
data_list = [["小明", 20, "男"], 
             ["小红", 21, "女"], 
             ["小刚", 22, "男"]]
df = pd.DataFrame(data_list, columns=["姓名", "年龄", "性别"])
print(df)

# 输出
#     姓名  年龄 性别
# 0   小明  20  男
# 1   小红  21  女
# 2   小刚  22  男

通过从列表创建 DataFrame,可以指定列的名称和行数据。

# 从字典创建 DataFrame
data_dict = {"姓名": ["小明", "小红", "小刚"],
             "年龄": [20, 21, 22],
             "性别": ["男", "女", "男"]}
df = pd.DataFrame(data_dict)
print(df)

# 输出
#     姓名  年龄 性别
# 0   小明  20  男
# 1   小红  21  女
# 2   小刚  22  男

也可以从字典创建 DataFrame,这种方式可以自动按照字典的键来确定列名。

查看 DataFrame

DataFrame 中的数据可以通过以下方式进行查看:

# 查看 DataFrame 中头部的几行数据
print(df.head())

# 输出前两行
#    姓名  年龄 性别
# 0  小明  20  男
# 1  小红  21  女

# 查看 DataFrame 中尾部的几行数据
print(df.tail())

# 输出后两行
#    姓名  年龄 性别
# 1  小红  21  女
# 2  小刚  22  男

# 查看 DataFrame 中的列名称
print(df.columns)

# 输出 ['姓名', '年龄', '性别']

# 查看 DataFrame 中的所有数据,不过要注意 DataFrame 的大小,避免输出太多数据
print(df.values)

# 输出
# array([['小明', 20, '男'],
#        ['小红', 21, '女'],
#        ['小刚', 22, '男']], dtype=object)
操作 DataFrame

可以通过以下方式对 DataFrame 进行操作:

# 获取 DataFrame 中的某一列
print(df["姓名"])

# 输出
# 0    小明
# 1    小红
# 2    小刚
# Name: 姓名, dtype: object

# 在 DataFrame 中新增一列
df["国家"] = ["中国", "美国", "英国"]
print(df)

# 输出
#     姓名  年龄 性别  国家
# 0   小明  20  男  中国
# 1   小红  21  女  美国
# 2   小刚  22  男  英国

# 选择符合条件的数据行
print(df[df["年龄"] > 20])

# 输出
#     姓名  年龄 性别  国家
# 1   小红  21  女  美国
# 2   小刚  22  男  英国

以上是 DataFrame 的基本操作,还有很多其他的操作方式可以通过 Pandas 来完成。