📅  最后修改于: 2023-12-03 14:45:03.139000             🧑  作者: Mango
Pandas 是一个强大的数据分析工具,它提供了多种数据结构来处理各种类型的数据。在 Pandas 中,有两种常用的数据结构:Series 和 DataFrame。
Series 是一种类似于列表的一维数组,它可以存储数字、字符串、布尔值等类型的数据。每个元素都有一个索引值,在 Series 中可以使用这个索引值来访问对应元素的值。
import pandas as pd
# 创建一个 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)
输出结果:
0 1
1 3
2 5
3 7
4 9
dtype: int64
在这个 Series 中,每个元素都有一个索引值(从 0 开始),可以使用 s[index]
来获取对应元素的值。
print(s[2]) # 输出 5
Series 中的元素可以使用不同的数据类型:
# 创建一个包含字符串的 Series
s = pd.Series(['apple', 'banana', 'cherry'])
print(s)
输出结果:
0 apple
1 banana
2 cherry
dtype: object
DataFrame 是一种二维表格数据结构,它可以存储多种类型的数据。在 DataFrame 中,每行代表一个数据记录,每列代表一种属性。DataFrame 可以读取和写入各种数据源,如 CSV 文件、数据库等。
# 创建一个 DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 32, 18, 47],
'gender': ['F', 'M', 'M', 'M']
}
df = pd.DataFrame(data)
print(df)
输出结果:
name age gender
0 Alice 25 F
1 Bob 32 M
2 Charlie 18 M
3 David 47 M
在 DataFrame 中,可以使用 .loc[row_index, column_index]
来访问具体的数据,例如:
print(df.loc[2, 'age']) # 输出 18
Pandas 提供了一些常用的数据处理方法,例如数据筛选、排序、统计等。我们可以在 DataFrame 上直接调用这些方法,例如:
# 筛选出年龄大于 30 的记录
df2 = df[df['age'] > 30]
print(df2)
# 按年龄对记录进行排序
df3 = df.sort_values('age')
print(df3)
# 计算年龄平均值
avg_age = df['age'].mean()
print(avg_age)
输出结果:
name age gender
1 Bob 32 M
3 David 47 M
name age gender
2 Charlie 18 M
0 Alice 25 F
1 Bob 32 M
3 David 47 M
30.5
以上就是 Pandas 中的数据结构和数据处理方法,让我们可以轻松地处理各种类型的数据,快速地进行数据分析和统计。