📅  最后修改于: 2023-12-03 15:33:23.692000             🧑  作者: Mango
Pandas 和 NumPy 是 Python 数据科学领域中的重要工具包。Pandas 由 NumPy 构建而成,并添加了一些数据结构和数据处理工具,提供了更高级、更具表现力的数据操作。Pandas 和 NumPy 一同形成了 Python 数据科学领域的重要根基。
Pandas 中最重要的数据结构是 Series 和 DataFrame。Series 是一种一维数组,在其中每个元素都有一种自己的标签,被称为索引。DataFrame 则是一个表格型的数据结构,其中每列可以是不同的值类型(数值、字符串、布尔型等),每列可以被认为是一个 Series。
下面是一个示例,展示如何使用 Pandas 创建一个 DataFrame:
import pandas as pd
import numpy as np
data = {'Country': ['Belgium', 'India', 'Brazil'],
'Capital': ['Brussels', 'New Delhi', 'Brasília'],
'Population': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data)
print(df)
输出结果:
Country Capital Population
0 Belgium Brussels 11190846
1 India New Delhi 1303171035
2 Brazil Brasília 207847528
可以看到,DataFrame 呈现了一个表格性的结构,其中每列的数据类型可以自动匹配。
Pandas 提供了大量的方法处理数据,包括数据清洗、转换、聚合、分组等等。例如,下面的代码展示了如何计算 DataFrame 中每列的平均值:
print(df.mean())
输出结果:
Population 512979803.0
dtype: float64
Pandas 还支持数据的读取和写入,可以轻松地读取和写入多种不同的数据格式。例如,下面的代码展示了如何将 DataFrame 写入到 CSV 文件中:
df.to_csv('countries.csv', index=False)
NumPy 提供了高效的数组操作,是许多数据科学工具的基础。NumPy 中最重要的数据结构是 ndarray(n 维数组),它可以用来表示所有类型的数据,包括数字、字符以及其他类型等等。
以下是一个简单的示例,展示了如何使用 NumPy 创建一个一维数组:
import numpy as np
a = np.array([1, 2, 3])
print(a)
输出结果:
[1 2 3]
NumPy 提供了大量的数组操作,包括索引、切片、分割、堆叠、排序等等。例如,下面的代码展示了如何计算数组 a 中的平均值:
print(np.mean(a))
输出结果:
2.0
NumPy 还支持随机数生成、线性代数、傅里叶变换等其他计算。例如,下面的代码展示了如何使用 NumPy 生成随机的二维数组:
b = np.random.random((3, 4))
print(b)
输出结果:
[[0.9790663 0.49595517 0.67841513 0.45453512]
[0.26347027 0.48419854 0.93628513 0.43094055]
[0.75847818 0.75373528 0.03152744 0.29534761]]
Pandas 和 NumPy 是 Python 数据科学领域的两个最基础、最重要的工具包。Pandas 提供了高级的数据操作和处理,NumPy 则提供了高效的数组操作和计算。学会使用 Pandas 和 NumPy,可以让我们更加高效、方便地处理和分析数据。