📜  描述性统计(1)

📅  最后修改于: 2023-12-03 15:25:57.481000             🧑  作者: Mango

描述性统计

简介

描述性统计是指通过定量方法来描述和总结一组数据的基本特征、分布情况、偏态和异常值等信息的统计学方法。在数据分析中,描述性统计是一项基本、必备的工作,可以通过它对数据进行初步的分析和理解,从而为后续的数据分析和挖掘提供基础。

基本概念

描述性统计中涉及的一些基本概念如下:

  • 平均数:样本中所有数据之和除以样本大小。
  • 中位数:将样本中所有数据按大小排列,位于样本中间位置的那个数。
  • 众数:在样本中出现次数最多的数。
  • 极差:样本最大值与最小值之差。
  • 标准差:衡量样本数据集中程度的一种方法,它是每个数据与平均值之差的平方的平均值的平方根。
  • 偏态:样本数据分布的不对称性,可以分为正偏态、负偏态和无偏态。
  • 异常值:一个与其他数值明显不同的数值,可能是由于测量误差或统计误差引起。
常用工具

描述性统计可以通过一些常用的工具来进行,其中包括:

  • Excel: Excel 中内置了各种描述性统计函数,如 AVERAGE、MEDIAN、MODE、MAX、MIN、STDEV 等,使用方便。
  • SPSS:SPSS 是一款专门用于数据分析和统计的软件,其中包含了大量的描述性统计方法,支持可视化分析。
  • Python:Python 中有 NumPy、Pandas、SciPy 等强大的数据分析和统计包,可以进行多种描述性统计分析。
  • R:R 语言是一种面向数据分析和统计的编程语言,其中包含了大量的描述性统计方法,尤其适合于大规模数据的分析和处理。
代码示例

下面给出一个使用 Python 进行描述性统计的代码示例:

import numpy as np
import pandas as pd

# 生成随机数据
data = pd.DataFrame({"x": np.random.randn(100)})
print("数据描述性统计摘要:\n", data.describe())
print("数据平均数:", data["x"].mean())
print("数据中位数:", data["x"].median())
print("数据众数:", data["x"].mode())
print("数据标准差:", data["x"].std())
print("数据偏态系数:", data["x"].skew())

以上代码中,使用了 Pandas 库中的 describe 函数来进行数据描述性统计,包括数据总数、平均数、标准差、最大值、最小值、中位数、25% 分位数和 75% 分位数等信息。另外,也计算了数据的平均数、中位数、众数、标准差和偏态系数等指标。