Pandas 和 Seaborn 的箱线图可视化
箱线图是通过其四分位数描绘的数字数据组的可视化表示。箱线图也用于检测数据集中的异常值。它使用简单的方框和胡须有效地捕获数据摘要,并允许我们轻松地跨组进行比较。箱线图使用第 25、50 和 75 个百分位数汇总样本数据。这些百分位数也称为下四分位数、中位数和上四分位数。
箱线图由 5 件事组成。
- 最低限度
- 第一个四分位数或 25%
- 中位数(第二四分位数)或 50%
- 第三四分位数或 75%
- 最大
要下载使用的数据集,请单击此处。
用 Pandas 绘制箱线图:
使用 pandas 数据框绘制箱线图的一种方法是使用 pandas 库中的boxplot()
函数。
# import the required library
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
# load the dataset
df = pd.read_csv("tips.csv")
# display 5 rows of dataset
df.head()
相对于total_bill
的days
箱线图。
df.boxplot(by ='day', column =['total_bill'], grid = False)
相对于tip
的size
箱线图。
df.boxplot(by ='size', column =['tip'], grid = False)
使用 seaborn 库绘制箱线图:
Syntax :seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
Parameters:
x = feature of dataset
y = feature of dataset
hue = feature of dataset
data = dataframe or full dataset
color = color name
让我们看看如何通过 seaborn 库创建箱线图。
有关“提示”数据集的信息。
# load the dataset
tips = sns.load_dataset('tips')
tips.head()
相对于total_bill
的days
箱线图。
# Draw a vertical boxplot grouped
# by a categorical variable:
sns.set_style("whitegrid")
sns.boxplot(x = 'day', y = 'total_bill', data = tips)
- 蓝色箱形图底部黑色水平线为最小值
- 蓝色箱形图矩形形状的第一条黑色水平线是第一四分位数或 25%
- 蓝色箱形图矩形形状的第二条黑色水平线是第二四分位数或 50% 或中位数。
- 蓝色箱形图矩形形状的第三条黑色水平线是第三四分位数或 75%
- 蓝色箱形图矩形顶部黑色水平线为最大值。
- 蓝色箱形图的小菱形是异常数据或错误数据。
在评论中写代码?请使用 ide.geeksforgeeks.org,生成链接并在此处分享链接。