📜  统计-分层抽样

📅  最后修改于: 2021-01-23 06:57:39             🧑  作者: Mango


这种检查策略是一部分情况下的一种情况,在这种情况下,可以将人群毫不费力地分成一些聚集点或阶层,而这些聚集点或聚集点彼此之间可能并不完全相同,但是聚集点内部的组成在某些属性方面是同质的,例如学校学习可以在性取向,所提供的课程和年龄等前提下分为多个层次。在这种情况下,种群首先被划分为地层,然后从每个地层中采集基本的不规则标本。分层测试有两种:按比例分层检查和不按比例分层检查。

  • 比例分层抽样-在这种情况下,从每个阶层中选择的单位数量与人口中阶层的比例成正比。例如,在一所大学中,共有2500名学生,其中1500名学生进入了研究生课程,1000名学生进入了研究生课程培训班。如果要使用按比例分层抽样选择100个样本,则样本中的本科生人数将为60,而研究生为40。因此,这两个阶层在样本中的代表比例与其在人口中的代表比例相同。

    当采样的目的是估计某些特征的总体值并且层内方差没有差异时,此方法最合适。

  • 不成比例的分层抽样-当研究目的是比较各阶层之间的差异时,有必要从所有阶层中抽取相等的单位,而不论其在人口中所占的份额如何。有时,某些层在某些特性方面比其他层更易变,在这种情况下,可以从变化更大的层中提取更多的单位。在两种情况下,抽取的样本都是不成比例的分层样本。

    可以使用以下公式最佳地分配层大小和层变异性之间的差异,以便从不同层中确定样本大小

    $ {n_i = \ frac {n.n_i \ sigma_i} {n_1 \ sigma_1 + n_2 \ sigma_2 + … + n_k \ sigma_k} \ for \ i = 1,2 … k} $

    哪里-

    • $ {n_i} $ =第i个阶层的样本量。

    • $ {n} $ =层次大小。

    • $ {\ sigma_1} $ =第i层的标准偏差。

    除此之外,可能存在一种情况,即在一个层次中收集样本的成本可能会比在另一个层次中高。最佳不均衡采样应采用以下方式进行:

    $ {\ frac {n_1} {n_1 \ sigma_1 \ sqrt {c_1}} = \ frac {n_2} {n_2 \ sigma_1 \ sqrt {c_2}} = … = \ frac {n_k} {n_k \ sigma_k \ sqrt { c_k}}} $

    其中$ {c_1,c_2,…,c_k} $是指第k层的抽样成本。可以使用以下公式确定来自不同层次的样本大小:

    $ {n_i = \ frac {\ frac {n.n_i \ sigma_i}} {\ sqrt {c_i}}} {\ frac {n_1 \ sigma_1} {\ sqrt {c_i}} + \ frac {n_2 \ sigma_2} {\ sqrt {c_2}} + … + \ frac {n_k \ sigma_k} {\ sqrt {c_k}}} \ for \ i = 1,2 … k} $

问题陈述:

一个组织有5000名员工,这些员工已分为三个级别。

  • 层A:50位高管,标准差= 9

  • B层:1250名非体力劳动者,标准差= 4

  • C层:3700名标准偏差= 1的体力劳动者

如何以最佳配置分配不成比例的300名员工?

解:

使用不成比例的采样公式进行最佳分配。

$ {n_i = \ frac {n.n_i \ sigma_i} {n_1 \ sigma_1 + n_2 \ sigma_2 + n_3 \ sigma_3}} \\ [7pt] \,对于流A,{n_1 = \ frac {300(50)(9 )} {(50)(9)+(1250)(4)+(3700)(1)}} \\ [7pt] \,= {\ frac {135000} {1950} = {14.75} \或\说\ {15}} \\ [7pt] \,对于流B,{n_1 = \ frac {300(1250)(4)} {(50)(9)+(1250)(4)+(3700)(1 }}} \\ [7pt] \,= {\ frac {150000} {1950} = {163.93} \或\ say \ {167}} \\ [7pt] \,对于流C,{n_1 = \ frac { 300(3700)(1)} {(50)(9)+(1250)(4)+(3700)(1)}} \\ [7pt] \,= {\ frac {110000} {1950} = { 121.3} \或\说\ {121}} $