分散度测量
这个时代被称为数据时代,数据几乎无处不在,现在所有的系统都充斥着数据。有很多技术可以用来总结和分析数据。均值是用来概括数据中心的重要统计量之一。这个度量不足以给出关于整个数据的想法,数据可能是分散的,而平均值不足以表达这一点。因此,使用了一些其他度量,称为分散度量。这些措施使我们能够测量数据中的分散性。让我们详细看看这些措施。
分散测量
离散度测量数据的离散度,即分布中的值有多远。这些度量捕捉数据不同值之间的变化。直观地说,离散度是分布点与分布平均值不同程度的度量。色散度量可分为如下所示的两类:
- 绝对分散测量
- 分散度的相对测量
绝对分散测量
这些离散度度量是用数据本身的单位来衡量和表达的。例如 – 米、美元、公斤等。一些绝对的分散度量是:
- 范围:定义为分布中最大值和最小值之间的差值。
- 平均偏差:这是数值与其均值之差的算术平均值。
- 标准偏差:这是从平均值测量的偏差平方的算术平均值的平方根。
范围
范围是分布中最大值和最小值之间的差。因此,它可以写成 R = L - S 其中 L 代表分布中的最大值,S 代表分布中的最小值。范围值越高意味着变化越大。该度量的一个缺点是它只考虑最大值和最小值,这可能并不总是正确指示分布值如何分散。
例如,
10、20、15、0、100
数据中最小值S = 0,数据中最大值L = 100
R = 100 – 0 = 100
注意:无法计算开放式频率分布的范围。开放式频率分布是那些没有定义最低等级的下限或最高等级的上限的分布。
未分组数据的范围:
问题 1:找出下列观察值的范围。
20、24、31、17、45、39、51、61
解决方案:
The largest value in the given observations is 61 and the smallest value is 17. The Range is 61 – 17 = 44
分组数据的范围:
问题 2:找出以下 10 班学生分数频率分布表的范围。Marks Intervals Number of Students 0-10 5 10-20 8 20-30 15 30-40 9
解决方案:
For the largest value – Take higher limit of the highest class = 40
For the smallest value – Take lower limit of the lowest class = 0
Range = 40 – 0
Range = 40
平均偏差
范围作为离散量度仅取决于数据中的最高值和最低值。另一方面,平均偏差衡量观察值与分布平均值的偏差。由于平均值是数据的中心值,因此有些偏差可能是正的,有些可能是负的。如果它们像这样相加,它们的总和不会透露太多,因为它们往往会抵消彼此的影响。例如,
考虑下面给出的数据,
-5、10、25
该数据的平均值 = 10
现在,不同值的平均值偏差为 (-5 -10), (10 – 10), (25 – 10) 即 -15, 0, 15
现在添加偏差,表明与平均值的偏差为零,这是不正确的。因此,为了解决这个问题,在计算平均偏差时只取差值的绝对值。
因此,平均偏差 (MD) =
未分组数据的平均偏差:
为了计算未分组数据的平均偏差,必须遵循以下步骤:
- 计算数据集所有值的算术平均值。
- 计算数据集的每个值与平均值之间的差异。仅考虑差值的绝对值。 |d|
- 计算这些偏差的算术平均值。
MD =
问题 1:计算给定未分组数据的平均偏差:
2、4、6、8、10
解决方案:
Following the steps mentioned above,
Mean =
⇒
M. D =
⇒ M.D =
⇒ M.D =
⇒M.D =
⇒ M.D = 2.4
未分组数据与中位数的平均偏差:
为了计算未分组数据的平均偏差,必须遵循以下步骤:
- 计算数据集所有值的中位数。
- 计算数据集的每个值与中位数之间的差异。仅考虑差值的绝对值。 |d|
- 计算这些偏差的算术平均值。
问题 2:计算给定未分组数据与中位数的平均偏差:
2、4、6、8、10
解决方案:
Following the steps mentioned above,
Median of this is also 6.
M. D =
⇒ M.D =
⇒ M.D =
⇒M.D =
⇒ M.D = 2.4
连续频率分布的平均偏差:
为了计算未分组数据的平均偏差,必须遵循以下步骤:
- 计算数据集所有值的算术平均值。
- 计算类区间的中间值与均值之间的差值。仅考虑差值的绝对值。 |d|
- 乘 |d|及其相应的组频率。
- 计算这些偏差的算术平均值。
MD =
问题 3:计算给定数据的平均偏差:Class Interval Frequency 0-10 4 10-20 2 20-30 4 30-40 0
解决方案:
Following the steps mentioned above,
Mean =
⇒
M. D =
⇒ M.D =
⇒ M.D =
⇒M.D =
⇒ M.D = 8
连续频率分布与中位数的平均偏差:
为了计算未分组数据的平均偏差,必须遵循以下步骤:
- 计算数据集所有值的中位数。
- 计算类区间的中间值与中位数之间的差值。仅考虑差值的绝对值。 |d|
- 乘 |d|及其相应的组频率。
- 计算这些偏差的算术平均值。
MD =
问题 4:计算给定数据的平均偏差:Class Interval Frequency 0-10 7 10-20 1 20-30 3 30-40 0
解决方案:
Following the steps mentioned above,
Median lies in the interval (0-10) so, let’s say 5 is the median.
M. D =
⇒ M.D =
⇒ M.D =
⇒M.D =
⇒ M.D = 4
分散度的相对测量
这些偏差度量以比率、百分比的形式表示。例如 – 标准偏差除以平均值是相对度量的一个示例。这些度量始终是无量纲的,也称为色散系数。在比较具有不同单位的两个数据集的变化时,这些措施会派上用场。例如,考虑两个学生权重数据集。在一个数据集中,重量以千克为单位,而在另一个数据集中,重量以克为单位。两者的值都有相同的变化,但由于单位不同,因此离散度的绝对度量将为数据集中的离散度给出非常高的值,权重以克为单位。由于在这些情况下,离散度的绝对测量值是不合适的,因此使用离散度的相对测量值。
洛伦兹曲线
洛伦兹曲线是经济学的重要组成部分。它是财富和收入分配的代表。它由 Max.O. 开发。 Lorenz 来表示财富分配的不平等。下图显示了典型的洛伦兹曲线。直线和曲线之间的面积称为基尼系数。曲线离直线越远,表明财富的不平等程度越高。
该曲线用于生态学、生物多样性研究和商业建模等许多领域。
Gini Coefficient: It is defined as the representation scalar measurement of inequality.
示例问题
问题 1:找出下列观察值的范围。
20、42、13、71、54、93、15、16
解决方案:
The largest value in the given observations is 71 and the smallest value is 13. The Range is 71 – 13 = 58
问题 2:找出以下 10 班学生分数频率分布表的范围。Marks Intervals Number of Students 10-20 8 20-30 25 30-40 9
解决方案:
For the largest value – Take higher limit of the highest class = 40
For the smallest value – Take lower limit of the lowest class = 10
Range = 40 – 10
Range = 30
问题 3:计算给定未分组数据的平均偏差:
-5, -4, 0, 4, 5
解决方案:
Following the steps mentioned above,
Mean =
⇒
M. D =
⇒ M.D =
⇒ M.D =
⇒M.D =
⇒ M.D = 3.6
问题 4:计算给定数据的平均偏差:Class Interval Frequency 0-10 1 10-20 1 20-30 8 30-40 0
解决方案:
Following the steps mentioned above,
Median lies in the interval (20-30) so, let’s say 25 is the median.
M. D =
⇒ M.D =
⇒ M.D =
⇒M.D =
⇒ M.D = 3