数据处理或数据处理不仅是数学术语,而且在日常生活中使用。当需要记录,收集和呈现任何类型的信息或数据时,最好使用数据处理。统计是一个我们经常听到的词,不是数据处理的另一个术语。从制作不同学生喜欢的糖果的条形图,到代表对Covid-19案例进行的大规模调查,都使用了数据处理并且这种数据处理是首选的。
很多时候,我们会遇到以下信息:
- 过去几个月中Covid案件的数量。
- 世界杯中一支球队攻入的进球数
在这种情况下,此信息称为数据。数据可以以统计方式和图形方式表示。通常视觉上吸引人的图形方式也容易被普通人理解。有很多方法可以用图形表示数据:
- 象形文字
- 条状图
- 双条形图
现在的问题是如何处理数据并以使其可以由这些图形表示的方式进行准备。
数据处理导论
Data Handling is the process of gathering, recording, or presenting information in such a way that is helpful to others in instances like graphs or charts.
通常,我们收到的数据是没有组织的。这种数据称为原始数据。为了以有意义的方式展示它或从中得出好的结论,我们需要系统地组织它。例如,考虑以下数据,
Students of Literature were asked to name their favorite existentialist author. The results are listed below:
Camus, Kafka, Nietzsche, Camus, Camus, Nietzsche, Kafka, Camus, Camus, Kafka, Kafka, Kafka, Kafka, Camus, Camus, Nietzsche, Kafka, Camus, Kafka, Kafka
现在,我们需要回答的问题是哪个是最不受欢迎的作者?
如果这些数据非常庞大,就很难像这样计算。这样算是不可能的。这就是为什么我们需要组织数据。
资料分组
前面的示例可以通过正确地分组数据来解决。如果将这些值与它们的类型分组在一起,则更容易计算。让我们仅在前面的示例中这样做,
我们有以下数据:
加缪,卡夫卡,尼采,加缪,加缪,尼采,卡夫卡,加缪,加缪,卡夫卡,卡夫卡,卡夫卡,卡夫卡,加缪,卡缪斯,尼采,卡夫卡,加缪,卡夫卡,卡夫卡
我们看到这里有三个实体:加缪(Camus),卡夫卡(Kafka)和尼采(Nietzsche)。让我们计算它们的出现次数,并根据它们在表中的出现次数进行分组。
它们上的线和叉称为记号。它们有时使我们更容易计算对象的数量。现在我们可以看到最受欢迎的作家是尼采。 “出现次数”列中的值称为该实体的频率,此表称为频率分布。
分组频率分布
有时可能会发生在特定范围内的值过多的情况。因此,为每个实体制作一个频率表确实很困难。取而代之的是,我们为一个范围创建频率表,并计算该范围内的实体数量。
例如,
假设我们有数据显示特定击球手在60场比赛中的跑动。
21、10、30、22、33、5、37、12、25、42、15、39、26、32、26 27、28、19、29、35、31、24、36、18、20、38 ,22,44,16,16,24,10,27,39,28,49,29,32,23,31,21,34,22,23,36,24,36,33,47,48,50,39 ,20、7、16、36、45、47、30、22、17
现在我们无法为每个值制作频率表,因此我们使用上面讨论的分组频率分布概念。
让我们将范围设置为0-10、10-20、20-30等。
Groups | Frequency |
0-10 | 2 |
10-20 | 9 |
20-30 | 22 |
30-40 | 15 |
40-50 | 8 |
50-60 | 2 |
Note: Notice that in the interval 0-10, 10-20. 10 is common, but a value cannot belong to two intervals simultaneously. Thus, a convention is assumed that the common observation will belong to higher class. So 10 will belong to the interval 10-20.
在50-60组中,将50称为下限,将60称为上限。上层限制和下层限制之间的差异称为间隔的宽度或大小。
直方图
它类似于条形图,但直方图将数字分组到范围内,然后在图形上绘制给定范围内的值的出现。
让我们考虑前面的例子,
Groups | Frequency |
0-10 | 2 |
10-20 | 9 |
20-30 | 22 |
30-40 | 15 |
40-50 | 8 |
50-60 | 2 |
下图以图形格式表示此数据。条形图的高度代表班级间隔的频率。请注意,条之间没有间隙。这种图叫做 直方图。
样本问题
问题1:一个骰子被投掷了25次,得到以下分数:
2、5、2、4、3、6、1、4、2、5、1、6、2、6、3、5、4、1、3、2、3、6、1、5、2
创建分数的频率表。
解决方案:
The frequency table of the scores obtained when a die is thrown can be shown as –
Die | Tally marks |
Scores (frequency) |
1 | |||| | 4 |
2 | 6 | |
3 | |||| | 4 |
4 | ||| | 3 |
5 | |||| | 4 |
6 | |||| | 4 |
问题2:首先制作文献示例中给出的数据的条形图。
解决方案:
Let’s make the table for the given data
Author | Number of Occurrences |
Kafka | 9 |
Camus | 8 |
Nietzsche | 3 |
Let’s put the names of authors on the x-axis and number of occurrences on the y-axis.
问题3:为以下数据制作直方图:
1,2,2,1,5,5,4,10,4,5,7,10,9,8,9,9,11
解决方案:
Let’s assume an interval size of 3 and make a frequency table.
Groups | Frequency |
0-3 | 3 |
3-6 | 4 |
6-9 | 2 |
9-12 | 6 |
Let’s plot these intervals on graph.
问题4:以下数据代表特定人每天使用Spotify的时间(以分钟为单位)。
5、10、12、7、20、13、30、25、20、50、30、24、17、63、24、30、15、10、40、24、15、18、20、11
为此数据制作频率表和直方图。
解决方案:
Before making a histogram, we need to group the data and make a frequency distribution for it.
Let’s assume the interval size to be 10.
Interval | Frequency |
0-10 | 2 |
10-20 | 8 |
20-30 | 7 |
30-40 | 3 |
40-50 | 1 |
50-60 | 1 |
60-70 | 1 |
问题5:通过观察给定的直方图回答以下问题。
- 直方图给出的信息是什么
- 哪一组包含最多的女孩。
- 有多少女孩的分数超过145。
解决方案:
- The histogram represents the total marks obtained the girls in the class.
- The group 140-150 contains the maximum number of girls.
- 9 girls have marks more than 145.