Python Pandas-描述性统计(1)

📌 相关文章

📜 Python Pandas-描述性统计(1)

📅 最后修改于: 2023-12-03 15:18:57.835000 🧑 作者: Mango

Python Pandas - 描述性统计

简介

Python Pandas 是一个开放源代码的数据分析库。它拥有丰富的数据结构和数据分析工具，可以轻松处理各种数据集。

描述性统计是数据分析中非常重要的一部分，它可以帮助我们更好地了解数据。Pandas 提供了各种描述性统计函数，可以轻松地对数据进行基本统计分析。

本文将介绍 Pandas 中一些常用的描述性统计函数，以及如何在 Pandas 中使用它们。

描述性统计函数

Pandas 提供了大量的描述性统计函数，其中一些常用函数包括：

count()：计算非缺失值的数量。
sum()：计算所有元素的总和。
mean()：计算所有元素的平均值。
median()：计算所有元素的中位数。
min()：计算所有元素的最小值。
max()：计算所有元素的最大值。
quantile()：计算所有元素的指定分位数。
describe()：生成有关数据的多种汇总统计信息。

示例

首先，我们需要导入 Pandas 库，并创建一个示例数据集：

import pandas as pd

data = pd.DataFrame({
    'Score': [68, 75, 78, 82, 90, 86, 94, 89, 80, 73],
    'Gender': ['male', 'female', 'male', 'female', 'male', 'male', 'female', 'male', 'female', 'male']
})

print(data)

输出：

   Score  Gender
0     68    male
1     75  female
2     78    male
3     82  female
4     90    male
5     86    male
6     94  female
7     89    male
8     80  female
9     73    male

接下来，我们可以使用 Pandas 中的描述性统计函数来分析数据：

# 计算非缺失值的数量
print(data.count())

# 计算所有元素的总和
print(data.sum())

# 计算所有元素的平均值
print(data.mean())

# 计算所有元素的中位数
print(data.median())

# 计算所有元素的最小值
print(data.min())

# 计算所有元素的最大值
print(data.max())

# 计算所有元素的指定分位数
print(data.quantile())

# 生成有关数据的多种汇总统计信息
print(data.describe())

输出：

Score     10
Gender    10
dtype: int64
Score      795
Gender    NaN
dtype: object
Score    79.5
dtype: float64
Score    80.5
dtype: float64
Score       68
Gender    female
dtype: object
Score       94
Gender    male
dtype: object
Score    82.0
Name: 0.5, dtype: float64
           Score
count  10.000000
mean   79.500000
std     8.305187
min    68.000000
25%    74.250000
50%    80.500000
75%    87.250000
max    94.000000

结论

以上就是使用 Pandas 进行描述性统计的基础内容。除了上述常用函数之外，Pandas 还提供了更多的描述性统计函数，具体可以参考官方文档。如果您想在实际数据分析中使用 Pandas 进行描述性统计，建议先对数据进行初步的探索性数据分析（Exploratory Data Analysis，简称 EDA），深入了解数据之后再选择合适的方法进行分析。