📅  最后修改于: 2023-12-03 15:40:49.008000             🧑  作者: Mango
熊猫(Pandas)是一个强大的Python数据分析工具库,广泛应用于数据清洗、分析和处理。其中,read_table()
函数是熊猫库中的一个重要函数,用于从文件或URL读取表格形式的数据。
read_table()
函数可以读取多种类型的表格数据,包括CSV、TSV和最常用的文本文件格式等。该函数支持多种参数配置,包括文件路径、分隔符、列名、行标签等,具体参数详见下表:
| 参数名称 | 类型 | 描述 | 默认值 |
| --- | --- | --- | --- |
| filepath_or_buffer | str 或文件对象 | 文件路径或文件对象 | 必选 |
| sep/delimiter | str | 分隔符 | "\t"(tab键) |
| header | int 或列表 | 指定标题所在行/列的索引,如果没有标题则为None
也可以传入列表来设置多级标题 | 0 |
| names | 序列 | 注明每个列的名称 | None |
| index_col | int 或序列 | 索引列的位置或列名,指定后该列为DataFrame的行标签 | None |
| skiprows | 序列 | 要跳过的行数,可以使用整数、标签、序列和函数 | None |
| skipfooter | int | 要从底部摘除的行数 | 0 |
| nrows | int | 要读取的行数(不包括标题行) | None |
| usecols | 序列 | 要返回的列,可以使用整数、标签和序列 | None |
| dtype | 字典 | 每列的数据类型 | None |
| parse_dates | 序列 | 需要解析为日期时间的列 | False |
| infer_datetime_format | bool | 自动推断日期时间格式 | False |
| encoding | str | 文件字符编码格式 | None |
读取包含电影信息的CSV文件,并创建一个DataFrame对象:
import pandas as pd
# 读取CSV文件
df = pd.read_table("movies.csv", sep=",", header=0, encoding='utf-8')
读取TSV格式的文件,并指定行索引:
import pandas as pd
# 读取TSV文件
df = pd.read_table("movies.tsv", sep="\t", header=0, index_col=0, encoding='utf-8')
读取从网站获取的HTML表格:
import pandas as pd
# 读取HTML表格
url = 'https://en.wikipedia.org/wiki/World_population'
tables = pd.read_html(url)
# tables返回一个包含DataFrame对象的列表,取第一张表
df = tables[0]
# 显示前5行数据
print(df.head())
通过read_table()
函数,我们可以轻松地读取各种文件或URL中的表格数据,并进一步进行数据分析、挖掘和可视化等。熟练掌握该函数的使用方法对于Python数据分析及数据处理的程序员来说是一个必备技能。