📜  波士顿数据集到熊猫 df - Python (1)

📅  最后修改于: 2023-12-03 15:40:44.269000             🧑  作者: Mango

波士顿数据集到熊猫 df - Python

Python是一个非常流行的编程语言,同时也是数据科学家和机器学习工程师的首选语言之一。Pandas是Python中一个非常强大的数据分析工具,它可以让我们轻松地将数据导入、预处理、分析和可视化。在本文中,我将向您展示如何使用Python和Pandas加载波士顿房价数据集并将其转换为Pandas数据框架。

波士顿数据集简介

波士顿房价数据集是机器学习和统计建模中的一个经典数据集,由 Harrison和Rubinfeld采集。它包括506个样本和13个特征,其中12个是数值型特征,1个是二分类特征。该数据集主要用于回归分析问题,即预测一个房子的价格。其中,每个样本表示一个来自波士顿的不同地区的数据点。

加载波士顿数据集

我们可以使用Scikit-learn库中的load_boston函数加载波士顿数据集:

from sklearn.datasets import load_boston
boston = load_boston()
将数据转换为Pandas数据框架

我们需要将数据转换为Pandas数据框架,以便更容易对其进行操作和分析。我们可以使用Pandas库中的DataFrame函数来创建一个新的数据框架:

import pandas as pd
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names)
boston_df['PRICE'] = boston.target

在这里,我们先将波士顿数据集的数据部分转换为Pandas数据框架,并使用其中的特征名称作为数据框架中的列名。然后,我们将房价数据部分(即目标数组)添加到数据框架中。

数据框架的基本信息

我们可以使用Pandas库中的一些函数来查看数据框架的基本信息,例如数据框架中的行数和列数,以及各列的数据类型和摘要统计信息:

print(boston_df.shape)
print(boston_df.dtypes)
print(boston_df.describe())

输出如下:

(506, 14)

CRIM       float64
ZN         float64
INDUS      float64
CHAS       float64
NOX        float64
RM         float64
AGE        float64
DIS        float64
RAD        float64
TAX        float64
PTRATIO    float64
B          float64
LSTAT      float64
PRICE      float64
dtype: object

             CRIM          ZN       INDUS     ...             B       LSTAT       PRICE
count  506.000000  506.000000  506.000000     ...      506.000000  506.000000  506.000000
mean     3.613524   11.363636   11.136779     ...      356.674032   12.653063   22.532806
std      8.601545   23.322453    6.860353     ...       91.294864    7.141062    9.197104
min      0.006320    0.000000    0.460000     ...        0.320000    1.730000    5.000000
25%      0.082045    0.000000    5.190000     ...      375.377500    6.950000   17.025000
50%      0.256510    0.000000    9.690000     ...      391.440000   11.360000   21.200000
75%      3.677082   12.500000   18.100000     ...      396.225000   16.955000   25.000000
max     88.976200  100.000000   27.740000     ...      396.900000   37.970000   50.000000

[8 rows x 14 columns]

上面的代码表明,该数据框架包含506个样本和14个特征(13个数值型特征和1个目标变量)。所有特征的数据类型都是浮点型。另外,数据框架的描述性统计信息表明,各特征分布范围很大,有些特征还存在一些离群值。这些信息可协助我们对数据集有更全面和清晰的认识。

结论

在本文中,我们使用Python和Pandas加载波士顿房价数据集并将其转换为Pandas数据框架。我们还展示了如何使用一些简单的函数来查看数据框架的基本信息。通过这种方式,我们可以更加轻松地进行数据预处理、特征工程、模型训练和性能评估。