📜  Pandas 中的数据结构(1)

📅  最后修改于: 2023-12-03 14:45:03.139000             🧑  作者: Mango

Pandas 中的数据结构

Pandas 是一个强大的数据分析工具,它提供了多种数据结构来处理各种类型的数据。在 Pandas 中,有两种常用的数据结构:Series 和 DataFrame。

Series

Series 是一种类似于列表的一维数组,它可以存储数字、字符串、布尔值等类型的数据。每个元素都有一个索引值,在 Series 中可以使用这个索引值来访问对应元素的值。

import pandas as pd

# 创建一个 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)

输出结果:

0    1
1    3
2    5
3    7
4    9
dtype: int64

在这个 Series 中,每个元素都有一个索引值(从 0 开始),可以使用 s[index] 来获取对应元素的值。

print(s[2])  # 输出 5

Series 中的元素可以使用不同的数据类型:

# 创建一个包含字符串的 Series
s = pd.Series(['apple', 'banana', 'cherry'])
print(s)

输出结果:

0     apple
1    banana
2    cherry
dtype: object
DataFrame

DataFrame 是一种二维表格数据结构,它可以存储多种类型的数据。在 DataFrame 中,每行代表一个数据记录,每列代表一种属性。DataFrame 可以读取和写入各种数据源,如 CSV 文件、数据库等。

# 创建一个 DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 32, 18, 47],
    'gender': ['F', 'M', 'M', 'M']
}
df = pd.DataFrame(data)
print(df)

输出结果:

       name  age gender
0     Alice   25      F
1       Bob   32      M
2   Charlie   18      M
3     David   47      M

在 DataFrame 中,可以使用 .loc[row_index, column_index] 来访问具体的数据,例如:

print(df.loc[2, 'age'])  # 输出 18
数据处理

Pandas 提供了一些常用的数据处理方法,例如数据筛选、排序、统计等。我们可以在 DataFrame 上直接调用这些方法,例如:

# 筛选出年龄大于 30 的记录
df2 = df[df['age'] > 30]
print(df2)

# 按年龄对记录进行排序
df3 = df.sort_values('age')
print(df3)

# 计算年龄平均值
avg_age = df['age'].mean()
print(avg_age)

输出结果:

     name  age gender
1     Bob   32      M
3   David   47      M
      name  age gender
2  Charlie   18      M
0    Alice   25      F
1      Bob   32      M
3    David   47      M
30.5

以上就是 Pandas 中的数据结构和数据处理方法,让我们可以轻松地处理各种类型的数据,快速地进行数据分析和统计。