📜  python 从网络读取 csv 文件 - Python (1)

📅  最后修改于: 2023-12-03 15:04:14.910000             🧑  作者: Mango

Python 从网络读取 CSV 文件

在处理数据时,我们经常需要从网络上获取数据。CSV 文件是一种常见的数据格式,在本文中,我们将介绍如何从网络读取 CSV 文件,并使用 Python 处理这些数据。

使用 requests 库下载 CSV 文件

首先,我们可以使用 Python 的 requests 库下载 CSV 文件。假设我们要下载一个名为 data.csv 的文件,我们可以使用以下代码:

import requests

url = "https://example.com/data.csv"
response = requests.get(url)

with open("data.csv", "wb") as f:
    f.write(response.content)

上述代码中,我们创建了一个 HTTP 请求,使用 requests.get 方法从指定的 URL 获取响应,然后将响应的内容写入名为 data.csv 的本地文件。

使用 pandas 库读取 CSV 数据

下载 CSV 文件后,我们可以使用 Python 的 pandas 库读取 CSV 数据。pandas 是一个功能强大的数据分析库,它可以帮助我们轻松地处理 CSV 数据。

以下代码演示了如何使用 pandas 库读取本地 CSV 文件:

import pandas as pd

data = pd.read_csv("data.csv")

如果我们要读取远程 CSV 文件,我们可以使用以下代码:

import pandas as pd

url = "https://example.com/data.csv"
data = pd.read_csv(url)

上述代码中,我们使用 pd.read_csv 方法读取 CSV 数据,可以传入本地文件路径或远程 URL。

处理 CSV 数据

读取 CSV 数据后,我们可以使用 pandas 库对数据进行操作和分析。以下是一些常见的数据处理任务示例。

选择列

要选择一个或多个列,我们可以使用 pandasloc 方法。以下代码选择 data DataFrame 中的 nameage 列:

selected_data = data.loc[:, ["name", "age"]]
选择行

要选择符合特定条件的行,我们可以使用 pandasloc 方法。以下代码选择 data DataFrame 中 age 列大于 18 的行:

selected_data = data.loc[data["age"] > 18, :]
聚合数据

要计算数据的平均值、中位数等统计信息,我们可以使用 pandasdescribe 方法。以下代码计算 data DataFrame 中 age 列的平均值和中位数:

stats = data["age"].describe()
mean_age = stats["mean"]
median_age = stats["50%"]
总结

在本文中,我们介绍了如何使用 Python 的 requests 库下载 CSV 文件,并使用 pandas 库读取和处理这些数据。pandas 是一个强大的数据分析库,它可以帮助我们轻松地处理 CSV 数据并执行数据操作和分析任务。