Python|使用 Seaborn 的泰坦尼克号数据 EDA(1)

📌 相关文章

📜 Python|使用 Seaborn 的泰坦尼克号数据 EDA(1)

📅 最后修改于: 2023-12-03 15:04:24.037000 🧑 作者: Mango

Seaborn 是一种基于 python 的数据可视化库，能够很好的可视化数据集的分布、关系和其他统计信息。它建立在 matplotlib 的基础上，以 matplotlib 为主要后端，并扩展其功能。Seaborn 还增加了额外的绘图风格，使得我们能够在更加美观的背景下绘制数据。

泰坦尼克号是一艘在 1912 年沉没的英国邮轮，当时载有 2224 名乘客和船员。这些数据记录了乘客和船员的个人信息、船舱等级、船票价格以及最终的生死情况。

EDA（Exploratory Data Analysis）即为探索性数据分析，指通过可视化和统计的方式分析数据，并试图从中发现一些趋势、特征或异常，以验证假设并增强数据理解。

首先，我们需要导入数据并查看数据的基本信息：

import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')
print(titanic.head())
print(titanic.info())

接下来，我们可以绘制一张关于泰坦尼克号存活情况与性别的柱形图。

sns.countplot(x='survived', hue='sex', data=titanic)

可以看到，女性的存活率远高于男性，而男性的死亡率远高于女性。

接着，我们可以绘制一张关于泰坦尼克号各舱级别存活情况的柱形图：

sns.countplot(x='survived', hue='class', data=titanic)

可以发现，头等舱的存活率最高，其次是二等舱，最后是三等舱。

最后，我们可以通过绘制核密度估计图来探索船票价格与存活率的关系。

sns.kdeplot(x='fare', hue='survived', data=titanic)

可以看到，在船票价格较高的区间中，存活率似乎更高。

通过使用 Seaborn 进行泰坦尼克号数据 EDA，我们可以对数据进行更全面、更深入的分析，并从中得到更多的信息。Seaborn 拥有强大的绘图功能，让我们能够以更加美观、易于理解的方式呈现数据，并从中探索更多的规律。