📅  最后修改于: 2023-12-03 15:28:52.204000             🧑  作者: Mango
集中趋势是统计学中用于描述数据集中分布情况的概念。常见的集中趋势有:均值、中位数、众数。
均值是所有数据值的平均数,常用符号为$\overline{x}$。均值能够较好地反映数据的集中趋势,但对异常值较为敏感。均值计算公式如下:
$$\overline{x}=\frac{1}{n}\sum_{i=1}^{n}{x_i}$$
在Python中,可以使用NumPy库的mean函数来计算均值:
import numpy as np
data = np.array([1, 2, 3, 4, 5])
mean = np.mean(data)
print("均值为:", mean)
输出结果:
均值为: 3.0
中位数是将数据集合中的数按照大小排列后,处于中间位置的数。中位数能够较好地反映数据的集中趋势,对异常值不太敏感。中位数的计算需要将数据按照大小排列后再进行计算。
当数据集合长度为奇数时,中位数为中间位置的数;当数据集合长度为偶数时,中位数为中间两个数的平均数。
在Python中,可以使用NumPy库的median函数来计算中位数:
import numpy as np
data = np.array([1, 2, 3, 4, 5])
median = np.median(data)
print("中位数为:", median)
输出结果:
中位数为: 3.0
众数是数据集合中出现次数最多的数。众数能够反映数据的集中趋势,对异常值不太敏感。一个数据集合也可以有多个众数。
在Python中,可以使用SciPy库的mode函数来计算众数:
from scipy import stats
data = np.array([1, 2, 3, 3, 4, 5])
mode = stats.mode(data)
print("众数为:", mode[0][0])
输出结果:
众数为: 3
均值、中位数、众数都是用来描述数据集中趋势的指标,它们各自的计算方式和适用范围不同。在实际应用中,应根据数据的分布情况选择合适的集中趋势指标。