抽样理论
在统计领域,在进行任何估计之前要做的第一件事就是从整个人口集创建一个样本集。人口集可以看作是收集数据的整个树,而样本集可以看作是进行实际观察和估计研究的分支。人口树是一个非常大的集合,对其观察进行研究可能会非常耗费精力,无论是时间还是金钱方面都是如此。因此,为了减少时间和资源,从人口集创建样本集。抽样过程:
- Identifying the Population set.
- Determination of the size of our sample set.
- Providing a medium for the basis of selection of samples from the Population medium.
- Picking out samples from the medium using one of many Sampling techniques like Simple Random, Systematic or Stratified Sampling.
- Checking whether the formed sample set, contains elements actually matches the different attributes of population set, without large variations in between.
- Checking for errors or inaccurate estimations in the formed sample set, that may or may not have occurred
- The set which we get after performing the above steps actually contributes to the Sample Set.
人口
人口是统计研究考虑的整套变量、元素、实体。它也被称为通用集,从中得出实际推论。人口集由所考虑的个体或元素的所有属性组成,但是对人口进行估计是非常耗费资源的,而且时间方面也是如此。示例:考虑地球上所有男性的平均体重。这在这里被认为是一个假设的人口,因为它包括所有曾经生活在地球上的人,其中包括将来会存在的人,也包括在我们之前生活过的人。但是出现了一个异常,在进行这样的测量时,并非人口托盘中的所有男性都是可观察的(考虑未来存在的男性以及曾经生活过但现在不存在的男性)。此外,对人口样本进行统计(如果假设可能)将需要大量时间和资源,这也将是详尽且低效的。因此,执行的是从可用总体中获取一个子集,并对它们进行统计,并对整个总体进行推断。取出一个子集,使任务更容易,因为审查子集所需的时间少于审查整个人口集所需的时间。对样本集进行统计以得出关于整个人口托盘的结论。计算被认为是总体集的结论,因为它不是用总体集的实际数据来衡量的,也不是没有错误的。这很明显,因为样本集被用作中等框架,成员较少,因此丢失了一些信息。 (这会导致错误)。
采样帧
采样帧是采样介质的基础。它是所有被观察的样本元素的集合。有时甚至可能发生抽样框架中的所有元素甚至没有参与实际统计。在这种情况下,参与研究的元素称为样本,而可能参与研究但未参与的潜在元素形成抽样框架。因此,Sampling Frame 是我们将对其执行统计的潜在元素列表。提出一个好的抽样框架是非常重要的,因为它有助于预测统计结果对总体集的反应。抽样框架不仅仅是一组随机挑选的元素,它甚至包含有助于识别集合中每个元素的标识符。示例: GeeksForGeeks 在德里组织了印度所有 Geek 实习生的聚会,对他们的表现进行统计研究。 GfG 向所有 500 名实习生发送了一封邀请电子邮件,但由于所有实习生都分散在印度各地,因此 200 人中有 500 人实际出现。因此,GfG 只需要对 200 名学生进行研究(样本集)。但剩下的 300 人可能是研究中的潜在候选人,但决定不出现在抽样框架中。抽样方法和类型:
- 简单随机抽样
- 系统抽样
- 分层抽样
这些是最广泛使用的采样过程,每个都有其优点和缺点。让我们详细了解这些采样方法:
- 简单随机抽样:简单随机抽样是最基本的抽样形式。在这种方法中,首先将总体中的所有元素分成大小相等的随机集合。随机集合之间没有定义属性,即不能根据某些特定标识符从另一集合中识别出一个集合。因此,每个元素都具有被选中的相同属性。 P(被选中)= 使用 SRS 的基本方法是:
- 选择人口集
- 确定抽样的基础
- 使用随机数/会话生成器从每个集合中挑选一个元素。
- 在时间方面不太详尽,因为它是最基本的抽样形式
- 对于元素数量非常少的人口集非常有用
- 即使不使用特殊的随机发生器,SRS 也可以随时随地使用
- 对大量人口集无效
- 在上述三种抽样方法中导致最多错误
- 存在偏差的可能性,然后 SRS 将无法提供正确的结果
- 不提供特定标识符来分离统计上相似的样本
- 系统抽样:系统抽样也称为概率抽样的一种。它比 SRS 准确得多,并且标准错误形成百分比非常低,但并非没有错误。在该方法中,首先,基于被适当地称为被排序的特定顺序或方案来排列总体托盘元素。它可以是任何顺序,这完全取决于执行统计的人。元素首先按升序、降序、字典顺序或测试人员认为合适的任何其他已知方法排列。虽然每次的起点都需要随机。在排列之后,然后根据预定义的间隔集或函数来挑选样本元素。示例:在元素范围从 1 到 100 的随机数字集中。元素首先按升序或降序排序。然后假设每第 4 个元素被选为抽样框架的一部分。这种抽样称为系统抽样。 P(of getting selected) = [取决于排序后的有序人口托盘]采用系统随机抽样的基本方法是:-
- 明智地选择种群集
- 检查系统抽样是否是有效的方法。
- 如果是,则应用排序方法来获得有序的人口元素对。
- 选择一个周期来爬出元素。
- 精度高于 SRS。
- 错误的标准概率较小。
- 在创建样本框架期间,偏差不会出现问题。
- 在时间方面效率不高
- 人口托盘元素的周期性可能导致荒谬的结果。
- 系统抽样可以提供最准确的结果,也可以提供不可能的结果。
- 分层抽样:分层抽样是上述所有三种方法中最复杂的抽样方法。它是一种既涉及简单随机抽样又涉及系统抽样的混合方法。它是可用的最先进的采样方法之一,可为测试人员提供近乎准确的结果。在这种方法中,人口托盘被划分为子段,也称为层(单数)。每个阶层都可以有自己独特的属性。划分为不同的子层后,可以使用 SRS 或 Systematic Sampling 来创建和挑选样本进行统计。分层抽样的基本方法是:
- 明智地选择人口托盘。
- 检查周期性或任何其他特征,以便将它们划分为不同的层
- 根据选择性属性将人口托盘划分为子集和子组。
- 使用 SRS 或每个单独层的系统抽样来形成样本框架。
- 我们甚至可以对不同的子集应用不同的采样方法。
- 提供高精度测量结果。
- 只需更改采样方法即可获得不同的结果。
- 该方法还可以在抽取样本时比较不同的层。
- 在资源和金钱方面效率低下且昂贵。
- 此方法仅在元素存在同质性的极少数情况下才会失败。
这三种是当今广泛使用的采样方法。他们每个人都有自己的优点和缺点。因此,必须明智地选择抽样方法,因为错误的选择会导致错误的答案。