📜  pandas read_csv 多重分隔符 - Python (1)

📅  最后修改于: 2023-12-03 15:33:23.778000             🧑  作者: Mango

Pandas read_csv 多重分隔符

在实际的数据分析中,我们经常会遇到数据中含有多重分隔符的情况。如果我们只使用单个分隔符读取这些数据,就会导致读取的数据结构混乱或错误。这时,我们需要使用 read_csv 函数的多重分隔符参数。

使用 read_csv 读取多重分隔符的数据

使用 read_csv 函数加载多重分隔符的数据需要额外指定分隔符参数。例如,我们有一份含多重分隔符的数据:

Name|Age|Favourite_Food|Address;Salary
Tom|30|Pizza|Hong Kong;50000
Jerry|25|Steak|New York;60000

我们需要指定将其分隔为两个部分:|;。以下是使用 read_csv 函数读取该数据的示例代码:

import pandas as pd

data = pd.read_csv('data.csv', sep='[;|]', engine='python')
print(data.head())

在上面的代码中,我们将 sep 参数设置为包含所有分隔符的正则表达式 [;|],并将 engine 参数设置为 python。这里是为了避免使用 C 引擎与正则表达式过滤器产生的冲突。

结论

使用 read_csv 函数时,如果您发现您的数据中包含多个分隔符,请不要直接使用单个分隔符进行数据加载。取而代之的是,使用 sep 参数指定分隔符正则表达式,让 read_csv 函数帮助您解析多重分隔符的数据。