📅  最后修改于: 2023-12-03 15:34:27.158000             🧑  作者: Mango
在统计学中,置信区间是用来估计一个总体参数的范围,可以用来判断样本均值或样本比例对应的总体均值或总体比例的区间。
在Python中,我们可以使用scipy
和numpy
等库来实现置信区间的计算。
通常情况下,根据中心极限定理,我们假设样本数据符合正态分布,因此可以使用正态分布的特性来计算置信区间。
以95%置信度为例,置信区间的计算公式为:
$$(\bar{x}-1.96\frac{s}{\sqrt{n}}, \bar{x}+1.96\frac{s}{\sqrt{n}})$$
其中,$\bar{x}$为样本均值,$s$为样本标准差,$n$为样本大小,1.96是标准正态分布表格中对应的z值。
import numpy as np
import scipy.stats as stats
# 构造样本数据
np.random.seed(123)
data = np.random.normal(0, 1, 100)
# 计算置信区间
conf_int = stats.norm.interval(0.95, loc=np.mean(data), scale=stats.sem(data))
# 显示结果
print("95% Confidence interval:", conf_int)
上述代码首先构造了一个大小为100,均值为0,标准差为1的正态分布样本数据。然后使用stats.norm.interval
函数计算置信区间,并将结果打印输出。
输出结果为:
95% Confidence interval: (-0.21305339746366416, 0.31067773592797574)
表示95%置信度下,总体均值落在$(-0.21, 0.31)$的区间内。