📜  Pandas 和 Seaborn 的箱线图可视化

📅  最后修改于: 2022-05-13 01:55:03.790000             🧑  作者: Mango

Pandas 和 Seaborn 的箱线图可视化

箱线图是通过其四分位数描绘的数字数据组的可视化表示。箱线图也用于检测数据集中的异常值。它使用简单的方框和胡须有效地捕获数据摘要,并允许我们轻松地跨组进行比较。箱线图使用第 25、50 和 75 个百分位数汇总样本数据。这些百分位数也称为下四分位数、中位数和上四分位数。

箱线图由 5 件事组成。

  • 最低限度
  • 第一个四分位数或 25%
  • 中位数(第二四分位数)或 50%
  • 第三四分位数或 75%
  • 最大

要下载使用的数据集,请单击此处。

用 Pandas 绘制箱线图:

使用 pandas 数据框绘制箱线图的一种方法是使用 pandas 库中的boxplot()函数。

# import the required library 
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
% matplotlib inline
  
  
# load the dataset
df = pd.read_csv("tips.csv")
  
# display 5 rows of dataset
df.head()   

相对于total_billdays箱线图。

df.boxplot(by ='day', column =['total_bill'], grid = False)

相对于tipsize箱线图。

df.boxplot(by ='size', column =['tip'], grid = False)

使用 seaborn 库绘制箱线图:

让我们看看如何通过 seaborn 库创建箱线图。

有关“提示”数据集的信息。

# load the dataset
tips = sns.load_dataset('tips')
  
tips.head()

相对于total_billdays箱线图。

# Draw a vertical boxplot grouped 
# by a categorical variable:
sns.set_style("whitegrid")
  
sns.boxplot(x = 'day', y = 'total_bill', data = tips)

让我们看第一个箱线图,即图中的蓝色箱线图,并了解这些统计信息:
  • 蓝色箱形图底部黑色水平线为最小值
  • 蓝色箱形图矩形形状的第一条黑色水平线是第一四分位数或 25%
  • 蓝色箱形图矩形形状的第二条黑色水平线是第二四分位数或 50% 或中位数。
  • 蓝色箱形图矩形形状的第三条黑色水平线是第三四分位数或 75%
  • 蓝色箱形图矩形顶部黑色水平线为最大值。
  • 蓝色箱形图的小菱形是异常数据或错误数据。