📅  最后修改于: 2023-12-03 15:25:14.858000             🧑  作者: Mango
当我们需要导入和处理数据集时,经常使用scikit-learn库。其中有个很常用的模块是datasets,它提供了一些常见数据集的接口,例如iris(鸢尾花),digits(手写数字),Boston房价数据集等。
而有时候,我们需要将这些数据集转化为pandas的DataFrame格式以便更方便地进行处理。下面是一个简单的例子,展示了如何将一个癌症数据集转换为DataFrame。
首先,我们需要导入相应的库:
from sklearn.datasets import load_breast_cancer
import pandas as pd
然后,我们可以使用load_breast_cancer()函数来获取该数据集。获取的结果是一个Bunch类型的对象,其中包含了该数据集的所有信息。
cancer = load_breast_cancer()
接下来,我们需要将这些信息转换为DataFrame的格式。我们可以使用pandas.DataFrame()函数将数据和目标变量拼接起来,其中数据使用cancer.data,目标变量使用cancer.target。
df_cancer = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
df_cancer['target'] = pd.Series(cancer.target)
最后,我们可以通过df.head()函数查看转换后的DataFrame的前几行数据。
df_cancer.head()
Markdown代码:
# 将 sklearn.dataset 癌症转换为 DataFrame
当我们需要导入和处理数据集时,经常使用scikit-learn库。其中有个很常用的模块是datasets,它提供了一些常见数据集的接口,例如iris(鸢尾花),digits(手写数字),Boston房价数据集等。
而有时候,我们需要将这些数据集转化为pandas的DataFrame格式以便更方便地进行处理。下面是一个简单的例子,展示了如何将一个癌症数据集转换为DataFrame。
首先,我们需要导入相应的库:
```python
from sklearn.datasets import load_breast_cancer
import pandas as pd
然后,我们可以使用load_breast_cancer()函数来获取该数据集。获取的结果是一个Bunch类型的对象,其中包含了该数据集的所有信息。
cancer = load_breast_cancer()
接下来,我们需要将这些信息转换为DataFrame的格式。我们可以使用pandas.DataFrame()函数将数据和目标变量拼接起来,其中数据使用cancer.data,目标变量使用cancer.target。
df_cancer = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
df_cancer['target'] = pd.Series(cancer.target)
最后,我们可以通过df.head()函数查看转换后的DataFrame的前几行数据。
df_cancer.head()