📅  最后修改于: 2023-12-03 14:49:38.545000             🧑  作者: Mango
CSV 文件(Comma Separated Values)是一种常用的表格数据交换格式,可以使用任何文本编辑器打开和编辑。在处理数据时,CSV 文件也是常见的数据来源之一。 Pandas 是 Python 语言中用于数据分析和数据处理的强大工具,它支持将 CSV 文件读取为数据框(DataFrame),方便我们进行后续的数据分析。
要读取 CSV 文件并创建数据框,首先需要使用 Pandas 库中的 read_csv() 函数。该函数的语法如下:
import pandas as pd
df = pd.read_csv('file_name.csv')
其中,'file_name.csv' 为 CSV 文件的名称和路径。读取成功后,CSV 文件中的数据将被转换为一个名为 df 的数据框对象。
import pandas as pd
df = pd.read_csv('sales_data.csv')
print(df.head())
输出:
OrderDate Region Rep Item Units UnitCost Total
0 2018-01-06 East Jones Pencil 95 1.99 189.05
1 2018-01-23 Central Kivell Binder 50 19.99 999.50
2 2018-02-09 Central Jardine Pencil 36 4.99 179.64
3 2018-02-26 Central Gill Pen 27 19.99 539.73
4 2018-03-15 West Sorvino Pencil 56 2.99 167.44
有时候,在 CSV 文件中使用的分隔符可能不是逗号(,),而是其他字符,如制表符(\t)、分号(;)或空格等。此时,我们可以通过 sep 参数来指定分隔符。
df = pd.read_csv('sales_data.tsv', sep='\t')
对于其他情况, pandas 也提供了多个选项来手动读取 CSV 文件,如使用不同的编码、跳过指定的行或列、处理缺失值等。
除了读取 CSV 文件, pandas 还支持将数据框保存为 CSV 格式的文件。
df.to_csv('file_name.csv', index=False)
其中,'file_name.csv' 为生成的 CSV 文件的名称和路径。如果不想保留行索引,可以将 index 参数设置为 False。
如果 CSV 文件中含有中文字符,我们可以指定文件编码来避免乱码。
df.to_csv('file_name.csv', index=False, encoding='utf-8')
通过读取和保存 CSV 文件,我们可以快速地将表格数据转换为数据框,并进行后续的数据分析和处理。同时, pandas 使用起来也比较简单,只需要几行代码即可完成。