📅  最后修改于: 2023-12-03 15:18:57.835000             🧑  作者: Mango
Python Pandas 是一个开放源代码的数据分析库。它拥有丰富的数据结构和数据分析工具,可以轻松处理各种数据集。
描述性统计是数据分析中非常重要的一部分,它可以帮助我们更好地了解数据。Pandas 提供了各种描述性统计函数,可以轻松地对数据进行基本统计分析。
本文将介绍 Pandas 中一些常用的描述性统计函数,以及如何在 Pandas 中使用它们。
Pandas 提供了大量的描述性统计函数,其中一些常用函数包括:
count()
:计算非缺失值的数量。sum()
:计算所有元素的总和。mean()
:计算所有元素的平均值。median()
:计算所有元素的中位数。min()
:计算所有元素的最小值。max()
:计算所有元素的最大值。quantile()
:计算所有元素的指定分位数。describe()
:生成有关数据的多种汇总统计信息。首先,我们需要导入 Pandas 库,并创建一个示例数据集:
import pandas as pd
data = pd.DataFrame({
'Score': [68, 75, 78, 82, 90, 86, 94, 89, 80, 73],
'Gender': ['male', 'female', 'male', 'female', 'male', 'male', 'female', 'male', 'female', 'male']
})
print(data)
输出:
Score Gender
0 68 male
1 75 female
2 78 male
3 82 female
4 90 male
5 86 male
6 94 female
7 89 male
8 80 female
9 73 male
接下来,我们可以使用 Pandas 中的描述性统计函数来分析数据:
# 计算非缺失值的数量
print(data.count())
# 计算所有元素的总和
print(data.sum())
# 计算所有元素的平均值
print(data.mean())
# 计算所有元素的中位数
print(data.median())
# 计算所有元素的最小值
print(data.min())
# 计算所有元素的最大值
print(data.max())
# 计算所有元素的指定分位数
print(data.quantile())
# 生成有关数据的多种汇总统计信息
print(data.describe())
输出:
Score 10
Gender 10
dtype: int64
Score 795
Gender NaN
dtype: object
Score 79.5
dtype: float64
Score 80.5
dtype: float64
Score 68
Gender female
dtype: object
Score 94
Gender male
dtype: object
Score 82.0
Name: 0.5, dtype: float64
Score
count 10.000000
mean 79.500000
std 8.305187
min 68.000000
25% 74.250000
50% 80.500000
75% 87.250000
max 94.000000
以上就是使用 Pandas 进行描述性统计的基础内容。除了上述常用函数之外,Pandas 还提供了更多的描述性统计函数,具体可以参考官方文档。如果您想在实际数据分析中使用 Pandas 进行描述性统计,建议先对数据进行初步的探索性数据分析(Exploratory Data Analysis,简称 EDA),深入了解数据之后再选择合适的方法进行分析。