📜  使用 CSV 文件创建数据框(1)

📅  最后修改于: 2023-12-03 14:49:38.545000             🧑  作者: Mango

使用 CSV 文件创建数据框

CSV 文件(Comma Separated Values)是一种常用的表格数据交换格式,可以使用任何文本编辑器打开和编辑。在处理数据时,CSV 文件也是常见的数据来源之一。 Pandas 是 Python 语言中用于数据分析和数据处理的强大工具,它支持将 CSV 文件读取为数据框(DataFrame),方便我们进行后续的数据分析。

读取 CSV 文件

要读取 CSV 文件并创建数据框,首先需要使用 Pandas 库中的 read_csv() 函数。该函数的语法如下:

import pandas as pd

df = pd.read_csv('file_name.csv')

其中,'file_name.csv' 为 CSV 文件的名称和路径。读取成功后,CSV 文件中的数据将被转换为一个名为 df 的数据框对象。

import pandas as pd

df = pd.read_csv('sales_data.csv')
print(df.head())

输出:

   OrderDate   Region       Rep     Item  Units  UnitCost    Total
0 2018-01-06     East     Jones   Pencil     95      1.99   189.05
1 2018-01-23  Central    Kivell   Binder     50     19.99   999.50
2 2018-02-09  Central   Jardine   Pencil     36      4.99   179.64
3 2018-02-26  Central      Gill      Pen     27     19.99   539.73
4 2018-03-15     West  Sorvino  Pencil     56      2.99   167.44
自定义分隔符

有时候,在 CSV 文件中使用的分隔符可能不是逗号(,),而是其他字符,如制表符(\t)、分号(;)或空格等。此时,我们可以通过 sep 参数来指定分隔符。

df = pd.read_csv('sales_data.tsv', sep='\t')

对于其他情况, pandas 也提供了多个选项来手动读取 CSV 文件,如使用不同的编码、跳过指定的行或列、处理缺失值等。

存储 CSV 文件

除了读取 CSV 文件, pandas 还支持将数据框保存为 CSV 格式的文件。

df.to_csv('file_name.csv', index=False)

其中,'file_name.csv' 为生成的 CSV 文件的名称和路径。如果不想保留行索引,可以将 index 参数设置为 False。

如果 CSV 文件中含有中文字符,我们可以指定文件编码来避免乱码。

df.to_csv('file_name.csv', index=False, encoding='utf-8')
总结

通过读取和保存 CSV 文件,我们可以快速地将表格数据转换为数据框,并进行后续的数据分析和处理。同时, pandas 使用起来也比较简单,只需要几行代码即可完成。