📜  Python|使用 Seaborn 的泰坦尼克号数据 EDA(1)

📅  最后修改于: 2023-12-03 15:04:24.037000             🧑  作者: Mango

Python | 使用 Seaborn 的泰坦尼克号数据 EDA
什么是 Seaborn?

Seaborn 是一种基于 python 的数据可视化库,能够很好的可视化数据集的分布、关系和其他统计信息。它建立在 matplotlib 的基础上,以 matplotlib 为主要后端,并扩展其功能。Seaborn 还增加了额外的绘图风格,使得我们能够在更加美观的背景下绘制数据。

什么是泰坦尼克号数据?

泰坦尼克号是一艘在 1912 年沉没的英国邮轮,当时载有 2224 名乘客和船员。这些数据记录了乘客和船员的个人信息、船舱等级、船票价格以及最终的生死情况。

EDA 是什么?

EDA(Exploratory Data Analysis)即为探索性数据分析,指通过可视化和统计的方式分析数据,并试图从中发现一些趋势、特征或异常,以验证假设并增强数据理解。

如何使用 Seaborn 进行泰坦尼克号数据 EDA?

首先,我们需要导入数据并查看数据的基本信息:

import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')
print(titanic.head())
print(titanic.info())

接下来,我们可以绘制一张关于泰坦尼克号存活情况与性别的柱形图。

sns.countplot(x='survived', hue='sex', data=titanic)

count_plot.png

可以看到,女性的存活率远高于男性,而男性的死亡率远高于女性。

接着,我们可以绘制一张关于泰坦尼克号各舱级别存活情况的柱形图:

sns.countplot(x='survived', hue='class', data=titanic)

count_plot_2.png

可以发现,头等舱的存活率最高,其次是二等舱,最后是三等舱。

最后,我们可以通过绘制核密度估计图来探索船票价格与存活率的关系。

sns.kdeplot(x='fare', hue='survived', data=titanic)

kde_plot.png

可以看到,在船票价格较高的区间中,存活率似乎更高。

总结

通过使用 Seaborn 进行泰坦尼克号数据 EDA,我们可以对数据进行更全面、更深入的分析,并从中得到更多的信息。Seaborn 拥有强大的绘图功能,让我们能够以更加美观、易于理解的方式呈现数据,并从中探索更多的规律。