📜  Python – 使用 Iris 数据集的 Pandas 基础(1)

📅  最后修改于: 2023-12-03 15:19:04.613000             🧑  作者: Mango

Python – 使用 Iris 数据集的 Pandas 基础

介绍:

Pandas是一种灵活、快速和易于使用的数据处理工具,它提供了大量数据结构和函数,让用户能够轻松地处理结构化数据。本文将介绍如何使用Pandas来处理Iris(鸢尾花)数据集,以便于分析数据进行可视化展示。

Iris数据集是一个常用于机器学习的数据集,由Fisher于1936年创建。该数据集包含三个不同品种的鸢尾花(Setosa、Versicolour和Virginica)的50个样本,每个样本都有四个属性(萼片长度、萼片宽度、花瓣长度和花瓣宽度)。由于数据集的简单性和可靠性,它已成为数据科学的基本数据集之一。

下面将通过以下步骤对Iris数据集进行分析,并对数据进行可视化展示:

步骤1:导入必要的库

markdown:

import pandas as pd
import matplotlib.pyplot as plt

步骤2:加载数据集

markdown:

# 通过pandas加载数据
iris_data = pd.read_csv("iris.data", names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])

步骤3:数据探索

markdown:

# 查看数据前5行
iris_data.head()
# 查看数据基本信息,包括数据类型、空值等
iris_data.info()
# 查看数值类型数据的基本统计信息
iris_data.describe()
# 查看类别分布情况
iris_data['class'].value_counts()

步骤4:数据可视化

markdown:

# 散点图
iris_data.plot(kind='scatter', x='sepal_length', y='sepal_width')
plt.show()

# 箱型图
iris_data.plot(kind='box')
plt.show()

# 直方图
iris_data.hist()
plt.show()

结论:

通过使用Pandas对Iris数据集进行分析,我们可以了解其中的数据分布、类别分布情况等,从而更好地了解Iris数据集的特征。同时,通过使用Pandas对数据进行可视化分析,我们可以更好地展示数据之间的关系,并从中发现一些有意义的信息。