📅  最后修改于: 2023-12-03 15:03:30.070000             🧑  作者: Mango
在数据分析中,我们经常会需要查看不同组别的数据分布情况。使用 Pandas 库可以轻松实现这一任务。
以下是一个例子,以说明 Pandas 如何实现按组查看分布的快速方法。
首先,我们需要导入 Pandas 库:
import pandas as pd
然后,我们可以创建一个 DataFrame:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
'C': [1, 2, 3, 4, 5, 6, 7, 8],
'D': [10, 20, 30, 40, 50, 60, 70, 80]})
这个 DataFrame 包含四列数据,列名分别为 A、B、C、D。我们可以使用 Pandas 的 groupby 方法,按列 A 分组,然后查看 C 列的分布:
df.groupby('A').C.describe()
输出结果如下:
count mean std min 25% 50% 75% max
A
bar 3.0 4.0 2.000000 2.0 3.00 4.0 5.00 6.0
foo 5.0 4.8 2.509980 1.0 3.00 5.0 7.00 8.0
这个表格告诉我们,A 列为 foo 的有 5 行数据,平均值为 4.8,标准差为 2.509980,最小值为 1,最大值为 8。
同样,我们可以查看 D 列的分布:
df.groupby('A').D.describe()
输出结果如下:
count mean std min 25% 50% 75% max
A
bar 3.0 40.0 20.0 20.0 30.0 40.0 50.0 60.0
foo 5.0 38.0 27.111360 10.0 20.0 50.0 70.0 80.0
这个表格告诉我们,A 列为 foo 的有 5 行数据,平均值为 38.0,标准差为 27.111360,最小值为 10,最大值为 80。
以上就是 Pandas 按组查看分布的快速方法,十分方便实用。
**注意:**以上代码片段为示例代码,实际使用时需根据数据集的实际情况进行相应的调整。