📜  数据挖掘中的统计方法(1)

📅  最后修改于: 2023-12-03 15:10:18.949000             🧑  作者: Mango

数据挖掘中的统计方法

数据挖掘是指从数据集中发现潜在模式、关系和规律的过程。而统计方法则是数据挖掘中必不可少的工具之一。统计方法包含了描述性统计和推断性统计两个方面。描述性统计使用图表、频数和平均数等指标来描述数据,并帮助我们理解数据的特征和分布;推断性统计则是以样本数据推断总体数据特征的方法,从而为做出决策提供依据。

描述性统计
中心趋势度量

中心趋势度量是描述数据中心位置的指标。常用的中心趋势度量包括平均数、中位数、众数。

  1. 平均数

平均数是样本数据的总和除以样本容量的结果。常用于对数据进行均衡处理。

# Python代码示例
import numpy as np

# 计算一组数据的平均数
data = [1, 2, 3, 4, 5]
mean_value = np.mean(data)
print(mean_value)
  1. 中位数

中位数是将一组数据按照大小顺序排列,处于中间位置的值。中位数既不受数据分布影响,也不受离群点影响。

# Python代码示例
import numpy as np

# 计算一组数据的中位数
data = [1, 2, 3, 4, 5]
median_value = np.median(data)
print(median_value)
  1. 众数

众数是一组数据中出现次数最多的数值。众数适用于描述标称数据类型。

# Python代码示例
from scipy import stats

# 计算一组数据的众数
data = [1, 2, 2, 3, 4, 4, 4, 5]
mode_value = stats.mode(data)[0][0]
print(mode_value)
离散程度度量

离散程度度量是描述数据分散程度的指标。常用的离散程度度量包括方差、标准差、极差、四分位数间距等。

  1. 方差和标准差

方差是每个数据与平均数的偏差平方的和,再除以总个数的结果。标准差是方差的算术平方根,用于度量数据的波动程度。

# Python代码示例
import numpy as np

# 计算一组数据的方差和标准差
data = [1, 2, 3, 4, 5]
variance_value = np.var(data)
std_value = np.std(data)
print(variance_value, std_value)
  1. 极差

极差是一组数据的最大值和最小值之差。

# Python代码示例
import numpy as np

# 计算一组数据的极差
data = [1, 2, 3, 4, 5]
range_value = np.max(data) - np.min(data)
print(range_value)
  1. 四分位数间距

四分位数间距是一组数据的上四分位数和下四分位数之差。四分位数作为一种稳健性度量,能够减少离群值带来的影响。

# Python代码示例
import numpy as np

# 计算一组数据的四分位数间距
data = [1, 2, 3, 4, 5]
q1, q3 = np.percentile(data, [25, 75])
iqr_value = q3 - q1
print(iqr_value)
分布形态度量

分布形态度量是度量数据形态的指标。常用的分布形态度量包括偏度和峰度。

  1. 偏度

偏度是描述数据分布不对称性的指标。正偏表示数据分布右侧比左侧更长,负偏表示数据分布左侧比右侧更长,偏度为0表示数据分布对称。

# Python代码示例
from scipy.stats import skew

# 计算一组数据的偏度
data = [1, 2, 3, 4, 5]
skewed_value = skew(data)
print(skewed_value)
  1. 峰度

峰度是描述数据分布峰态的指标。正态分布的峰度为3,同等数量的数据中如果峰态比正态分布更陡峭,则峰度将大于3,如果平均而言,比正态分布更平,则峰度将小于3。

# Python代码示例
from scipy.stats import kurtosis

# 计算一组数据的峰度
data = [1, 2, 3, 4, 5]
kurtosis_value = kurtosis(data)
print(kurtosis_value)
推断性统计

推断统计是关于随机抽样得到数据总体性质的推断。推断统计包括点估计、区间估计和假设检验三个方面。

点估计

点估计是使用样本数据估计总体参数的方法。点估计包括样本平均数、样本方差、样本比例等。

# Python代码示例
import numpy as np

# 计算样本平均数的点估计
data = [1, 2, 3, 4, 5]
sample_mean = np.mean(data)
print(sample_mean)
区间估计

区间估计是使用样本数据估计总体参数的置信区间的方法。置信区间是总体参数值落在一组区间内的概率,是对总体参数区间估计的度量。

# Python代码示例
from scipy import stats

# 计算置信区间
data = [1, 2, 3, 4, 5]
conf_int = stats.t.interval(0.95, len(data)-1, loc=np.mean(data), scale=stats.sem(data))
print(conf_int)
假设检验

假设检验是通过验证样本数据是否能够支持一个关于总体参数的某个假设的统计方法。假设检验包括单样本检验、双样本检验、方差分析等。

# Python代码示例
from scipy import stats

# 计算单样本检验的p值
data = [1, 2, 3, 4, 5]
t_stat, p_value = stats.ttest_1samp(data, 3)
print(p_value)
总结

数据挖掘中的统计方法是非常重要的工具和手段。本文介绍了描述性统计和推断性统计两个方面的内容,包括了中心趋势度量、离散程度度量、分布形态度量、点估计、区间估计和假设检验等。这些方法在数据挖掘中的应用不仅能够帮助我们分析数据的特征和分布,还能够为我们的决策提供支持。