每天我们都会从不同来源获得大量信息。我们的报纸,电视,电话和互联网等是我们生活中信息的来源。这些信息可以与任何事情相关,从板球保龄球的平均价格到公司多年来的利润。这些事实和数字通常是数字,被称为数据。统计是对数据的研究。让我们详细研究一下。
统计–数据的收集和表示
在进入统计信息之前,首先让我们定义什么是数据。
“Data are units of information, often numeric, collected through observation.”
It is plural form of the Latin word “Datum”.
在过去的二十年中,我们的世界变得非常面向信息。因此,对于我们来说,从数据中提取有意义的信息变得至关重要。为此,我们需要统计数据。让我们看看统计数据在形式上意味着什么。
Statistics is derived from Latin word “Status” which means “a state”. It concerns with the nature, meaning and distribution of the data.
资料收集
数据收集是指收集有关某物的信息,目的是对其进行分析或从中提取一些有意义的信息。涉及数据收集的一些活动示例如下:
- Students collecting data from their localities about the number of people with Covid Vaccines.
- A Football fan collecting information about the goals scored by his favorite player.
- A record company collecting information about album sales by their artists.
记录数据的类型
在大多数情况下,我们为目标收集实验数据。通常分为以下两类之一:
- 分类数据
- 数值数据
分类数据
此数据表示某物实体的特征。例如,如果我们正在收集有关某些人的数据。与该信息有关的分类数据可能是人的性别,婚姻状况等。这些东西的值不是数字,通常是“是/否”,在这种情况下是“男/女”。由于它们不是数字,因此无法将它们加在一起。
数值数据
该数据来自测量,本质上是数字。例如,人的体重,股票价格,第十二类学生的成绩等。此数据也称为定量数据。它可以进一步细分为以下类型:
- 连续数据
- 离散数据
连续数据:此数据在间隔之间可以取任何值。无法计算该数据的可能值数量。例如,直尺的长度可以为0-100厘米之间的任何长度。可以是30cm,30.11cm等。有无限多个可能的值。
离散数据:此数据仅采用某些值。例如:如果将一枚硬币扔了三遍,我们要计算正面数。只有少数可能的值。 0,1,2或3。不能取2.2或任何其他值。因此,只有有限的可能值。
数据呈现
收集数据之后,我们需要以一种有意义的方式来呈现它。让我们举个例子
假设我们有一个班级的学生身高数据,
140、161、152、184、135、168和144。
我们需要回答以下与数据有关的问题:
- 班上最长的学生的身高是多少?
- 班上最矮的学生的身高是多少?
- 平均身高是多少?
以这种格式分析数据有点困难。表格中的数据称为原始数据。如果数据很大,则以这种形式分析数据可能会花费更多时间。如果按升序或降序对数据进行排序,可以使操作变得容易一些。因此,以这种方式,数据的呈现会影响信息以及从数据中提取信息所花费的时间。
假设该数据甚至更大,那么按排序顺序组织数据将非常困难。在这种情况下,我们可以使用频率表。我们来看一个例子。
未分组的频率分布
在这种类型的频率表中,我们按原样考虑值,然后计算它们在数据中的出现次数。我们不对数据进行分组。我们来看一个例子。
问题:假设我们有十二年级学生的成绩。满分是40分。
20 | 21 | 29 | 15 | 7 | 8 | 10 |
31 | 40 | 24 | 5 | 11 | 13 | 20 |
24 | 27 | 13 | 15 | 38 | 33 | 29 |
使用频率表表示此数据。
解决方案:
Let’s take marks of some student in one column and frequency of such marks in another column.
Notice that in this table, we have not grouped the data instead we have taken exact values and their frequency. So, this type of representation is called ungrouped frequency distribution.
分组频率分布
前一种表示形式绝对是对先前表示形式的改进,但是如上例所示,表在这种表示形式中可能会变得很大。提示标记和分组也可以用来表示此数据。
问题:我们拥有20个城市中特定日期的共生病例数的数据。
Marks | Frequency |
5 | 1 |
7 | 1 |
8 | 1 |
10 | 1 |
11 | 1 |
13 | 2 |
15 | 2 |
20 | 2 |
21 | 1 |
24 | 2 |
29 | 1 |
33 | 1 |
38 | 1 |
40 | 1 |
使用频率表表示此数据。
解决方案:
In the previous example we saw that ungrouped frequency distribution is cumbersome and very long to look at. So now, we will divide the data into groups. This kind of frequency table representation is called grouped frequency representation.
Let’s divide the numbers of cases in the groups like, 0-5, 5-10, 10-15 … and so on.
Then the frequency table will become,
上例中给出的间隔(如0-5、5-10等)称为类间隔。较大的数字称为上限,而较低的数字称为下限。
让我们看一下有关这些概念的一些示例问题
样本问题
问题1:下表代表数据。以适当的频率分布形式表示此数据。
10 | 21 | 25 | 33 |
15 | 8 | 16 | 20 |
0 | 5 | 38 | 28 |
5 | 0 | 16 | 23 |
解决方案:
We can see from the data given above, that there are only three values – 2,3 and 4. These values occur multiple times throughout the data. Since there are very less number of values, we can represent this kind of data in the form un-grouped frequency table.
问题2:下面提供的数据代表了XI类的20名学生的血型。
Group | Frequency |
0-5 | 2 |
5-10 | 3 |
10-15 | 1 |
15-20 | 3 |
20-25 | 2 |
25-30 | 2 |
30-35 | 1 |
35-40 | 1 |
在表格中以频率表的形式表示上面给出的数据。在学生中,以下哪个血型频率最高?
解决方案:
We know there are four types of blood groups in the table.
O, A, AB and B
So, we will use ungrouped frequency distribution table to represent the data.
Blood Group | Frequency |
O | 5 |
A | 5 |
AB | 4 |
B | 6 |
Total | 20 |
From the frequency distribution table we can tell the B is the blood group which most commonly occurring in students.
问题3:表格代表了X班学生的体重。
3 | 4 | 3 | 3 |
2 | 4 | 4 | 3 |
2 | 2 | 2 | 3 |
回答以下的问题:
- 大多数学生的说谎范围是多少?
- 假设体重超过70的学生被视为超重,体重小于50的学生被视为体重过轻。班上有多少这样的学生?
解决方案:
Let’s make a grouped frequency distribution table for this data.
Assuming intervals like 0-10,10-20…and so on. Let’s divide the data into these intervals are count the frequency.
Weight Group | Frequency |
0-10 | 0 |
10-20 | 0 |
20-30 | 0 |
30-40 | 0 |
40-50 | 3 |
50-60 | 4 |
60-70 | 6 |
70-80 | 2 |
80-90 | 1 |
Total | 16 |
This above table represents a grouped frequency table. Now answering the questions.
1. Most students lie in the range from 60-70.
2. For overweight students, we need to count the number of students with weight greater than 70. It can be observed from the table that there are three such students.
For underweight students, the number students with weight less than 50 are also three students.
问题4:将三枚硬币扔20次。记录每次发生的磁头数量,并在下面的此数据中给出。准备给定数据的频率分布。
Value | Frequency |
2 | 4 |
3 | 5 |
4 | 3 |
Total – | 12 |
解决方案:
We know there are maximum of three heads possible at each turn in this experiment. So we can actually make an ungrouped frequency distribution for such data
Number of Heads | Frequency |
0 | 3 |
1 | 5 |
2 | 8 |
3 | 4 |
Total | 20 |
Thus, the table above represents the frequency table for this data.