📜  pandas 读取 csv 文件 - Python (1)

📅  最后修改于: 2023-12-03 14:45:04.855000             🧑  作者: Mango

Pandas 读取 CSV 文件 - Python

在数据科学和数据分析中,CSV(逗号分隔值)是一种常见的文件格式,它使用逗号作为字段之间的分隔符。Python 的 Pandas 库提供了简单而强大的功能来读取和处理 CSV 文件。

安装和导入 Pandas

在使用 Pandas 读取 CSV 文件之前,我们需要先安装 Pandas 库。可以使用以下命令来安装:

pip install pandas

安装完成后,我们需要在 Python 脚本中导入 Pandas:

import pandas as pd
读取 CSV 文件

要读取 CSV 文件,我们可以使用 Pandas 中的 read_csv() 函数。需要提供 CSV 文件的路径作为参数。以下示例展示了如何读取 CSV 文件:

df = pd.read_csv('data.csv')

这将将 CSV 文件中的数据加载到一个名为 df 的 Pandas 数据框中。

展示数据

一旦数据被加载到 Pandas 数据框中,我们可以使用各种方法来展示和分析数据。

查看数据框的前几行

要查看数据框的前几行,可以使用 head() 方法。默认情况下,它将返回数据框的前 5 行。

df.head()
查看数据框的后几行

要查看数据框的后几行,可以使用 tail() 方法。默认情况下,它将返回数据框的最后 5 行。

df.tail()
获取数据框的维度

要获取数据框的维度(行数和列数),可以使用 shape 属性。

df.shape
获取数据框的列名

要获取数据框的列名,可以使用 columns 属性。

df.columns
获取数据框的摘要统计信息

要获取数据框的摘要统计信息(如平均值、最小值、最大值等),可以使用 describe() 方法。

df.describe()
数据处理

Pandas 还提供了许多用于处理和清理数据的功能。

选择特定的列

要选择特定的列,可以通过列名在数据框中进行索引。以下示例选择名为 column_name 的列:

df['column_name']
过滤行

要根据条件过滤行,可以使用布尔索引。以下示例返回满足条件的行:

df[df['column_name'] > 10]
排序数据框

要对数据框进行排序,可以使用 sort_values() 方法。以下示例按列名对数据框进行升序排序:

df.sort_values(by='column_name')
处理缺失值

要处理数据框中的缺失值,可以使用 fillna() 方法。以下示例将缺失值填充为指定的值(例如 0):

df.fillna(0)
导出数据

将处理完的数据导出到新的 CSV 文件非常简单,可以使用 to_csv() 方法。以下示例将数据框导出到名为 new_data.csv 的 CSV 文件:

df.to_csv('new_data.csv', index=False)

设置 index=False 可以防止生成的 CSV 文件包含索引列。

以上是使用 Pandas 读取和处理 CSV 文件的一些基础操作。Pandas 还提供了许多其他功能,如数据转换、合并、分组等。详细了解 Pandas,请参考 Pandas 官方文档