📜  pandas 系列绘制分布 - Python (1)

📅  最后修改于: 2023-12-03 15:33:24.822000             🧑  作者: Mango

pandas 系列绘制分布 - Python

Pandas 是一个很有用的 Python 库,它提供了丰富的数据处理和操作工具,其中包括绘制分布图形的功能。下面我们将介绍一些 pandas 的绘制分布图形的方法。

安装 pandas

首先,我们需要安装 pandas 库。可以通过以下命令安装:

pip install pandas
导入库

安装完 pandas 库之后,我们需要先导入它:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

同时,也需要导入 numpy 和 matplotlib 库。

单变量分布图

pandas 提供了多种单变量分布图的方法。下面我们分别介绍一下。

直方图

直方图是了解连续性变量分布情况的常用图形。可以使用 hist 方法绘制:

data = pd.DataFrame(np.random.randn(100,1), columns=['value'])

data.hist(bins=20)
  • bins 参数用于设置直方图的箱子数量,可以根据数据量选择合适的值。
密度图

密度图和直方图类似,也是用于展示连续性变量分布情况的图形。不过相比于直方图,密度图更加平滑,更加适合于用于观察曲线分布的情况。可以使用 plot 方法绘制:

data.plot(kind='density')
箱线图

箱线图用于展示离散型变量(或者连续型变量离散化之后的结果)分布的情况。可以使用 boxplot 方法绘制:

data = pd.DataFrame(np.random.randn(100,3), columns=['value1', 'value2', 'value3'])
data.boxplot()

其中 columns 参数指定了要绘制的列。

双变量分布图

Pandas 提供了多种双变量分布图的方法。下面我们分别介绍一下。

散点图

散点图用于展示两个变量之间的关系,可以使用 plot 方法绘制:

data = pd.DataFrame(np.random.randn(50,2), columns=['x', 'y'])
data.plot(kind='scatter', x='x', y='y')

其中 xy 参数指定了要绘制的列。

热力图

热力图用于展示两个变量之间的对比情况,以颜色的深浅来表示两个变量之间的关系。可以使用 plot 方法绘制:

data = pd.DataFrame(np.random.randn(50,4), columns=['a', 'b', 'c', 'd'])
corr = data.corr()

plt.imshow(corr, cmap='hot', interpolation='none')
plt.colorbar()
plt.xticks(range(len(corr)), corr.columns)
plt.yticks(range(len(corr)), corr.columns)
plt.show()

其中 corr 是数据的相关系数矩阵。

结论

以上就是 pandas 绘制分布图形的常用方法了。这些方法可以帮助我们更加直观地了解数据的分布情况,从而更好地进行数据分析和可视化。