📜  所有列的python默认汇总统计 - Python(1)

📅  最后修改于: 2023-12-03 15:39:40.028000             🧑  作者: Mango

所有列的Python默认汇总统计 - Python

在Python中,有许多库可以用于对数据进行分析和处理,其中pandas是最常用的之一。在pandas中,有许多函数可用于对数据进行汇总统计,比如mean、count、sum等。

本文将介绍如何在pandas中对所有列进行默认汇总统计。

引入数据

首先,我们需要引入一些数据以展示如何进行汇总统计。我们将使用pandas自带的iris数据集,代码如下:

import pandas as pd

df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

这将读取iris数据集并将其保存到DataFrame中,并将列名设置为sepal_length、sepal_width、petal_length、petal_width和class。

默认汇总统计

pandas默认提供了一些函数用于对所有列进行汇总统计,包括mean、count、min、max、std和var。这些函数将返回一个由每个列的统计数据组成的Series,我们可以通过调用这些函数来进行汇总统计。

mean = df.mean()
count = df.count()
min = df.min()
max = df.max()
std = df.std()
var = df.var()

这将返回每个列的平均值、计数、最小值、最大值、标准差和方差。

显示汇总数据

虽然我们已经计算了每个列的汇总统计数据,但这些数据现在只保存在Series中。要将这些数据以表格形式显示出来,我们可以将它们重新组合成一个DataFrame。

summary_df = pd.DataFrame({'mean': mean, 'count': count, 'min': min, 'max': max, 'std': std, 'var': var})
print(summary_df)

这将输出以下表格:

| | mean | count | min | max | std | var | | ----------- | ------ | ----- | ---- | ---- | ----- | ----- | | sepal_length | 5.8433 | 150 | 4.3 | 7.9 | 0.828 | 0.686 | | sepal_width | 3.054 | 150 | 2.0 | 4.4 | 0.434 | 0.188 | | petal_length | 3.7587 | 150 | 1.0 | 6.9 | 1.764 | 3.116 | | petal_width | 1.1987 | 150 | 0.1 | 2.5 | 0.763 | 0.582 |

以上是所有列的默认汇总统计方法,如果需要自定义方法和参数,可以灵活运用pandas等库进行操作。