📜  数据科学中常用的文件格式

📅  最后修改于: 2022-05-13 01:54:48.568000             🧑  作者: Mango

数据科学中常用的文件格式

什么是文件格式
文件格式旨在存储特定类型的信息,例如CSV、XLSX等。文件格式还告诉计算机如何显示或处理其内容。常见文件格式,如CSV、XLSX、ZIP、TXT等。
如果您将自己的未来视为数据科学家,那么您必须了解不同类型的文件格式。因为数据科学就是关于数据和数据的处理,如果你不了解文件格式,那么对你来说可能会很复杂。因此,您必须了解不同的文件格式。
不同类型的文件格式:
CSV: CSV 代表逗号分隔值。以及这个名称的 CSV 文件使用逗号分隔值。在 CSV 文件中,每一行是一条数据记录,每条记录由一个或多个数据字段组成,字段用逗号分隔。
代码:在 pandas 中读取 csv 文件的Python代码

python3
import pandas as pd
df = pd.read_csv("file_path / file_name.csv")
print(df)


python3
import pandas as pd
df = pd.read_excel (r'file_path\\name.xlsx')
print (df)


python3
import pandas as pd
df = pd.read_csv(' File_Path \\ File_Name .zip')
print(df)


python3
import pandas as pd
df = pd.read_csv('File_Path \\ File_Name .txt')
print(df)


python3
import pandas as pd
df = pd.read_json('File_path \\ File_Name .json')
print(df)


python3
import pandas as pd
df = pd.read_html('File_Path \\File_Name.html')
print(df)


python3
pip install tabula-py
pip install pandas
df = tabula.read_pdf(file_path \\ file_name .pdf)
print(df)


XLSX: XLSX 文件是 Microsoft Excel Open XML 格式电子表格文件。这用于存储任何类型的数据,但主要用于存储财务数据和创建数学模型等。
代码:在 pandas 中读取 xlsx 文件的Python代码

蟒蛇3

import pandas as pd
df = pd.read_excel (r'file_path\\name.xlsx')
print (df)

笔记:

ZIP: ZIP 文件是一种数据容器,它们以压缩形式存储一个或多个文件。它在互联网上广泛使用 下载 ZIP 文件后,您需要解压缩其内容才能使用它。
代码:在 pandas 中读取 zip 文件的Python代码

蟒蛇3

import pandas as pd
df = pd.read_csv(' File_Path \\ File_Name .zip')
print(df)

TXT: TXT 文件可用于以纯文本形式存储信息,除了基本字体和字体样式之外没有特殊格式。它被任何文本编辑和其他软件程序识别。
代码:在熊猫中读取 txt 文件的Python代码

蟒蛇3

import pandas as pd
df = pd.read_csv('File_Path \\ File_Name .txt')
print(df)

JSON: JSON 代表 JavaScript Object Notation。 JSON 是一种基于文本的标准格式,用于表示基于 JavaScript 对象语法的结构化数据
代码:在熊猫中读取 json 文件的Python代码

蟒蛇3

import pandas as pd
df = pd.read_json('File_path \\ File_Name .json')
print(df)

HTML: HTML 代表超文本标记语言,用于创建网页。我们可以使用 read_html()函数读取Python pandas 中的 html 表。
代码:在 pandas 中读取 html 文件的Python代码

蟒蛇3

import pandas as pd
df = pd.read_html('File_Path \\File_Name.html')
print(df)

笔记:

PDF: pdf 代表可移植文档格式 (PDF),当我们需要保存无法修改但仍需要轻松获取的文件时,使用此文件格式。
代码:在 pandas 中读取 pdf 的Python代码

蟒蛇3

pip install tabula-py
pip install pandas
df = tabula.read_pdf(file_path \\ file_name .pdf)
print(df)

笔记: