根据牛津大学的说法, “数据是不同的信息,通常以特殊方式格式化”。
数据被测量、收集、报告和分析,因此通常使用图表、图像或其他分析工具对其进行可视化。原始数据(“未处理的数据”)可能是在被研究人员“清理”和更正之前的一组数字或字符。必须对其进行更正,以便我们可以消除异常值、仪器或数据输入错误。数据处理通常是分阶段进行的,因此一个阶段的“处理过的数据”也可以被认为是后续阶段的“原始数据”。现场数据是在不受控制的“原位”环境中收集的数据。实验数据是在科学调查的观察中产生的数据。
数据可以通过以下方式生成:
- 人类
- 机器
- 人机结合。
它通常可以在任何以结构化或非结构化格式生成和存储任何信息的地方生成。
为什么数据很重要?
- 数据有助于做出更好的决策。
- 数据通过找出表现不佳的原因来帮助解决问题。
- 数据有助于评估性能。
- 数据有助于改进流程。
- 数据有助于了解消费者和市场。
数据类型:
一般来说,数据可以分为两部分:
- 分类数据:
在分类数据中,我们看到具有定义类别的数据,例如:- 婚姻状况
- 政治党派
- 眼睛的颜色
- 数值数据:
数值数据可以进一步分为两类:- 离散数据:
离散数据包含具有离散数值的数据,例如儿童数、每小时缺陷数等。 - 连续数据:
连续数据包含具有连续数值的数据,例如重量、电压等。
- 离散数据:
在高级层面,我们可以进一步将数据分为四部分:
- 标称比例:
名义尺度将数据分为几个不同的类别,其中不包含排名标准。例如性别、婚姻状况。 - 普通尺度:
序数尺度将数据分类为不同的类别,在此期间隐含排名例如:- 教师职称:教授、副教授、助理教授
- 学生成绩:A、B、C、DEF
- 间隔尺度:
区间标度可以是有序标度,在该标度期间,测量值之间的差异是有意义的量,但测量值没有真正的零点。例如:- 华氏和摄氏温度。
- 年
- 比例尺:
比率标度可以是有序标度,其中测量值之间的差异是有意义的量,因此测量值具有真正的零点。因此,我们可以对真实尺度的数据进行算术运算。例如:体重、年龄、工资等。