📜  Seaborn-观测值分布

📅  最后修改于: 2020-11-06 06:45:23             🧑  作者: Mango


在上一章中处理的类别散点图中,该方法在它可以提供的有关每个类别中值的分布的信息方面受到限制。现在,进一步,让我们看看什么可以帮助我们进行类别比较。

箱形图

箱线图是通过四分位数可视化数据分布的便捷方法。

箱形图通常具有从框延伸的垂直线,称为晶须。这些晶须表示上下四分位数之外的变异性,因此箱形图也被称为箱须图和箱须图。数据中的所有异常值均作为单个点绘制。

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.swarmplot(x = "species", y = "petal_length", data = df)
plt.show()

输出

压缩的

图上的点表示离群值。

小提琴图

小提琴图是箱形图与内核密度估计值的组合。因此,这些图更易于分析和理解数据的分布。

让我们使用称为的技巧数据集来了解更多关于小提琴图的信息。该数据集包含与餐厅顾客提供的小费相关的信息。

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill", data=df)
plt.show()

输出

阶段

小提琴内部显示了箱形图的四分位和晶须值。由于小提琴图使用KDE,因此小提琴的较宽部分表示较高的密度,而狭窄的区域表示相对较低的密度。箱形图中的四分位数间距和kde中的较高密度部分位于小提琴图每个类别的相同区域。

上图显示了一周中四天的total_bill分布。但是,除此之外,如果我们想了解性别分布的行为,请在下面的示例中进行探讨。

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill",hue = 'sex', data = df)
plt.show()

输出

区别

现在我们可以清楚地看到男性和女性之间的消费行为。我们可以很容易地说,通过观察情节,男人比女人赚更多的钱。

并且,如果hue变量只有两个类,我们可以通过在给定的一天将每个小提琴分成两个而不是两个小提琴来美化图表。小提琴的任何部分都引用hue变量中的每个类别。

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y="total_bill",hue = 'sex', data = df)
plt.show()

输出

多阶段