📜  如何从 Pandas DataFrame 创建箱线图?(1)

📅  最后修改于: 2023-12-03 14:51:46.006000             🧑  作者: Mango

如何从 Pandas DataFrame 创建箱线图?

如果你需要在数据科学和数据可视化领域工作,那么对于数据的可视化和解释是极其重要的。Pandas DataFrame 是 Python 语言中处理表格类型数据最常用的数据结构之一。在 Pandas 中创建箱线图非常简单,可以很容易地对数据进行分析。本文将介绍如何从 Pandas DataFrame 创建箱线图。

我们首先需要准备一些数据。我们将使用 Seaborn 库中的数据集 tips 作为示例数据集。该数据集包含估计的餐费、小费、性别、吸烟习惯、日期和时间等变量。以下是如何加载该数据集并查看其前几行:

import seaborn as sns

tips = sns.load_dataset('tips')
tips.head()

这将输出以下结果:

total_bill  tip     sex smoker  day     time    size
0   16.99   1.01    Female  No      Sun     Dinner  2
1   10.34   1.66    Male    No      Sun     Dinner  3
2   21.01   3.50    Male    No      Sun     Dinner  3
3   23.68   3.31    Male    No      Sun     Dinner  2
4   24.59   3.61    Female  No      Sun     Dinner  4

接下来,我们将使用 boxplot() 函数从 Pandas DataFrame 创建箱线图。请注意,我们可以使用 Pandas 的 groupby() 函数对数据进行分组,并将分组后的数据传递给 boxplot() 函数来创建箱线图。

以下是使用 Pandas 和 Seaborn 库创建箱线图的示例代码:

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

# Group data by 'sex'
grouped_data = tips.groupby('sex')

# Create boxplot
ax = grouped_data.boxplot(column=['total_bill', 'tip'])

在上面的代码中,我们首先使用 Pandas 的 groupby() 函数将数据按性别分组。然后,我们将分组后的数据传递给 boxplot() 函数创建箱线图。具体来说,我们将 boxplot() 函数的 column 参数设置为要分析的数值列名称。

运行上面的代码,将得到以下箱线图:

boxplot-example

从图中可以看出,男性和女性的消费金额(total_bill)和小费(tip)之间的中位数存在一定的差异。此外,女性的消费金额和小费的分布更加集中,没有明显的异常值。

这就是如何从 Pandas DataFrame 创建箱线图的方法。这是一种非常强大且易于使用的数据可视化方式,可以让你更好地理解和解释数据。