Python|熊猫 dataframe.aggregate()
Python是一种用于进行数据分析的出色语言,主要是因为以数据为中心的Python包的奇妙生态系统。 Pandas就是其中之一,它使导入和分析数据变得更加容易。
Dataframe.aggregate()函数用于跨一列或多列应用一些聚合。使用 callable、 字符串、dict 或字符串/callables 列表进行聚合。最常用的聚合是:
sum:返回请求轴的值的总和
min:返回请求轴的最小值
max:返回请求轴的最大值
Syntax: DataFrame.aggregate(func, axis=0, *args, **kwargs)
Parameters:
func : callable, string, dictionary, or list of string/callables. Function to use for aggregating the data. If a function, must either work when passed a DataFrame or when passed to DataFrame.apply. For a DataFrame, can pass a dict, if the keys are DataFrame column names.
axis : (default 0) {0 or ‘index’, 1 or ‘columns’} 0 or ‘index’: apply function to each column. 1 or ‘columns’: apply function to each row.
Returns: Aggregated DataFrame
有关代码中使用的 CSV 文件的链接,请单击此处
示例 #1:在数据框中的所有列中聚合 'sum' 和 'min'函数。
# importing pandas package
import pandas as pd
# making data frame from csv file
df = pd.read_csv("nba.csv")
# printing the first 10 rows of the dataframe
df[:10]
聚合仅适用于数字类型列。
# Applying aggregation across all the columns
# sum and min will be found for each
# numeric type column in df dataframe
df.aggregate(['sum', 'min'])
输出:
对于具有数值的每一列,已找到所有值的最小值和总和。对于数据框df ,我们有四个这样的列 Number、Age、Weight、Salary。
示例 #2:
在 Pandas 中,我们还可以对不同的列应用不同的聚合函数。为此,我们需要传递一个字典,其键包含列名和包含任何特定列的聚合函数列表的值。
# importing pandas package
import pandas as pd
# making data frame from csv file
df = pd.read_csv("nba.csv")
# We are going to find aggregation for these columns
df.aggregate({"Number":['sum', 'min'],
"Age":['max', 'min'],
"Weight":['min', 'sum'],
"Salary":['sum']})
输出:
单独的聚合已应用于每一列,如果任何特定聚合未应用于列,则它具有对应的 NaN 值。