📅  最后修改于: 2023-12-03 15:33:24.822000             🧑  作者: Mango
Pandas 是一个很有用的 Python 库,它提供了丰富的数据处理和操作工具,其中包括绘制分布图形的功能。下面我们将介绍一些 pandas 的绘制分布图形的方法。
首先,我们需要安装 pandas 库。可以通过以下命令安装:
pip install pandas
安装完 pandas 库之后,我们需要先导入它:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
同时,也需要导入 numpy 和 matplotlib 库。
pandas 提供了多种单变量分布图的方法。下面我们分别介绍一下。
直方图是了解连续性变量分布情况的常用图形。可以使用 hist
方法绘制:
data = pd.DataFrame(np.random.randn(100,1), columns=['value'])
data.hist(bins=20)
bins
参数用于设置直方图的箱子数量,可以根据数据量选择合适的值。密度图和直方图类似,也是用于展示连续性变量分布情况的图形。不过相比于直方图,密度图更加平滑,更加适合于用于观察曲线分布的情况。可以使用 plot
方法绘制:
data.plot(kind='density')
箱线图用于展示离散型变量(或者连续型变量离散化之后的结果)分布的情况。可以使用 boxplot
方法绘制:
data = pd.DataFrame(np.random.randn(100,3), columns=['value1', 'value2', 'value3'])
data.boxplot()
其中 columns
参数指定了要绘制的列。
Pandas 提供了多种双变量分布图的方法。下面我们分别介绍一下。
散点图用于展示两个变量之间的关系,可以使用 plot
方法绘制:
data = pd.DataFrame(np.random.randn(50,2), columns=['x', 'y'])
data.plot(kind='scatter', x='x', y='y')
其中 x
和 y
参数指定了要绘制的列。
热力图用于展示两个变量之间的对比情况,以颜色的深浅来表示两个变量之间的关系。可以使用 plot
方法绘制:
data = pd.DataFrame(np.random.randn(50,4), columns=['a', 'b', 'c', 'd'])
corr = data.corr()
plt.imshow(corr, cmap='hot', interpolation='none')
plt.colorbar()
plt.xticks(range(len(corr)), corr.columns)
plt.yticks(range(len(corr)), corr.columns)
plt.show()
其中 corr
是数据的相关系数矩阵。
以上就是 pandas 绘制分布图形的常用方法了。这些方法可以帮助我们更加直观地了解数据的分布情况,从而更好地进行数据分析和可视化。