📅  最后修改于: 2023-12-03 15:40:44.269000             🧑  作者: Mango
Python是一个非常流行的编程语言,同时也是数据科学家和机器学习工程师的首选语言之一。Pandas是Python中一个非常强大的数据分析工具,它可以让我们轻松地将数据导入、预处理、分析和可视化。在本文中,我将向您展示如何使用Python和Pandas加载波士顿房价数据集并将其转换为Pandas数据框架。
波士顿房价数据集是机器学习和统计建模中的一个经典数据集,由 Harrison和Rubinfeld采集。它包括506个样本和13个特征,其中12个是数值型特征,1个是二分类特征。该数据集主要用于回归分析问题,即预测一个房子的价格。其中,每个样本表示一个来自波士顿的不同地区的数据点。
我们可以使用Scikit-learn库中的load_boston函数加载波士顿数据集:
from sklearn.datasets import load_boston
boston = load_boston()
我们需要将数据转换为Pandas数据框架,以便更容易对其进行操作和分析。我们可以使用Pandas库中的DataFrame函数来创建一个新的数据框架:
import pandas as pd
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names)
boston_df['PRICE'] = boston.target
在这里,我们先将波士顿数据集的数据部分转换为Pandas数据框架,并使用其中的特征名称作为数据框架中的列名。然后,我们将房价数据部分(即目标数组)添加到数据框架中。
我们可以使用Pandas库中的一些函数来查看数据框架的基本信息,例如数据框架中的行数和列数,以及各列的数据类型和摘要统计信息:
print(boston_df.shape)
print(boston_df.dtypes)
print(boston_df.describe())
输出如下:
(506, 14)
CRIM float64
ZN float64
INDUS float64
CHAS float64
NOX float64
RM float64
AGE float64
DIS float64
RAD float64
TAX float64
PTRATIO float64
B float64
LSTAT float64
PRICE float64
dtype: object
CRIM ZN INDUS ... B LSTAT PRICE
count 506.000000 506.000000 506.000000 ... 506.000000 506.000000 506.000000
mean 3.613524 11.363636 11.136779 ... 356.674032 12.653063 22.532806
std 8.601545 23.322453 6.860353 ... 91.294864 7.141062 9.197104
min 0.006320 0.000000 0.460000 ... 0.320000 1.730000 5.000000
25% 0.082045 0.000000 5.190000 ... 375.377500 6.950000 17.025000
50% 0.256510 0.000000 9.690000 ... 391.440000 11.360000 21.200000
75% 3.677082 12.500000 18.100000 ... 396.225000 16.955000 25.000000
max 88.976200 100.000000 27.740000 ... 396.900000 37.970000 50.000000
[8 rows x 14 columns]
上面的代码表明,该数据框架包含506个样本和14个特征(13个数值型特征和1个目标变量)。所有特征的数据类型都是浮点型。另外,数据框架的描述性统计信息表明,各特征分布范围很大,有些特征还存在一些离群值。这些信息可协助我们对数据集有更全面和清晰的认识。
在本文中,我们使用Python和Pandas加载波士顿房价数据集并将其转换为Pandas数据框架。我们还展示了如何使用一些简单的函数来查看数据框架的基本信息。通过这种方式,我们可以更加轻松地进行数据预处理、特征工程、模型训练和性能评估。