📅  最后修改于: 2023-12-03 14:57:56.048000             🧑  作者: Mango
有时候,当我们需要处理一个大型的数据集时,我们并不需要将整个数据集的信息全部读入到内存里,只需要读取一部分最为关键的数据就可以进行后续的分析和计算。在 Pandas 中,我们可以使用 head() 函数来获取 DataFrame 的前 n 行数据。本篇文章将介绍如何使用 Python 和 Pandas 提取 DataFrame 的前 n 行数据。
在使用 Pandas 库之前,我们需要先导入 Pandas 库。一般情况下,我们可以使用以下语句来导入 Pandas 库。
import pandas as pd
在进行代码演示之前,我们首先需要读取一个数据集。在本篇文章中,我们将使用波士顿房价数据集来作为演示的数据集。通过以下代码,我们可以读取波士顿房价数据集并将其存储到一个名为 df 的 DataFrame 中。
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
df = pd.read_csv(url, sep='\s+', header=None)
df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
要返回 DataFrame 的前 n 行数据,我们只需要使用 head() 函数即可。例如,如果我们需要获取 DataFrame 的前 5 行数据,我们可以使用以下语句。
df.head(5)
该语句将会返回 DataFrame 中的前 5 行数据,如下所示。
| | CRIM | ZN | INDUS | CHAS | NOX | RM | AGE | DIS | RAD | TAX | PTRATIO | B | LSTAT | MEDV | |---:|-------:|------:|-------:|------:|-------:|-------:|------:|--------:|------:|------:|----------:|-------:|--------:|-------:| | 0 | 0.0063 | 18 | 2.31 | 0 | 0.538 | 6.575 | 65.2 | 4.09 | 1 | 296 | 15.3 | 396.9 | 4.98 | 24 | | 1 | 0.0273 | 0 | 7.07 | 0 | 0.469 | 6.421 | 78.9 | 4.9671 | 2 | 242 | 17.8 | 396.9 | 9.14 | 21.6 | | 2 | 0.0273 | 0 | 7.07 | 0 | 0.469 | 7.185 | 61.1 | 4.9671 | 2 | 242 | 17.8 | 392.83 | 4.03 | 34.7 | | 3 | 0.0324 | 0 | 2.18 | 0 | 0.458 | 6.998 | 45.8 | 6.0622 | 3 | 222 | 18.7 | 394.63 | 2.94 | 33.4 | | 4 | 0.0691 | 0 | 2.18 | 0 | 0.458 | 7.147 | 54.2 | 6.0622 | 3 | 222 | 18.7 | 396.9 | 5.33 | 36.2 |
从上面的表格中可以看出,我们成功地获取了 DataFrame 的前 5 行数据。同样地,如果我们需要获取 DataFrame 的前 10 行数据,我们可以使用以下语句。
df.head(10)
该语句将会返回 DataFrame 中的前 10 行数据。
| | CRIM | ZN | INDUS | CHAS | NOX | RM | AGE | DIS | RAD | TAX | PTRATIO | B | LSTAT | MEDV | |---:|-------:|------:|-------:|------:|-------:|-------:|------:|--------:|------:|------:|----------:|-------:|--------:|-------:| | 0 | 0.0063 | 18 | 2.31 | 0 | 0.538 | 6.575 | 65.2 | 4.09 | 1 | 296 | 15.3 | 396.9 | 4.98 | 24 | | 1 | 0.0273 | 0 | 7.07 | 0 | 0.469 | 6.421 | 78.9 | 4.9671 | 2 | 242 | 17.8 | 396.9 | 9.14 | 21.6 | | 2 | 0.0273 | 0 | 7.07 | 0 | 0.469 | 7.185 | 61.1 | 4.9671 | 2 | 242 | 17.8 | 392.83 | 4.03 | 34.7 | | 3 | 0.0324 | 0 | 2.18 | 0 | 0.458 | 6.998 | 45.8 | 6.0622 | 3 | 222 | 18.7 | 394.63 | 2.94 | 33.4 | | 4 | 0.0691 | 0 | 2.18 | 0 | 0.458 | 7.147 | 54.2 | 6.0622 | 3 | 222 | 18.7 | 396.9 | 5.33 | 36.2 | | 5 | 0.0299 | 0 | 2.18 | 0 | 0.458 | 6.43 | 58.7 | 6.0622 | 3 | 222 | 18.7 | 394.12 | 5.21 | 28.7 | | 6 | 0.0883 | 12.5 | 7.87 | 0 | 0.524 | 6.012 | 66.6 | 5.5605 | 5 | 311 | 15.2 | 395.6 | 12.43 | 22.9 | | 7 | 0.1446 | 12.5 | 7.87 | 0 | 0.524 | 6.172 | 96.1 | 5.9505 | 5 | 311 | 15.2 | 396.9 | 19.15 | 27.1 | | 8 | 0.2112 | 12.5 | 7.87 | 0 | 0.524 | 5.631 | 100 | 6.0821 | 5 | 311 | 15.2 | 386.63 | 29.93 | 16.5 | | 9 | 0.1700 | 12.5 | 7.87 | 0 | 0.524 | 6.004 | 85.9 | 6.5921 | 5 | 311 | 15.2 | 386.71 | 17.1 | 18.9 |
以上就是如何使用 Python 和 Pandas 来获取 DataFrame 的前 n 行数据。