先决条件 – 数据挖掘
数据:它是数据对象及其属性的存储方式。
- 属性是对象的属性或特征。例如。一个人的头发颜色、空气湿度等。
- 属性集定义了一个对象。对象也称为实例或实体的记录。
不同类型的属性或数据类型:
- 名义属性:
名义属性仅提供足够的属性来区分一个对象和另一个对象。例如学生名册号,人的性别。 - 序数属性:
序数属性值提供了足够的信息来对对象进行排序。如排名、等级、身高 - 二进制属性:
它们是 0 和 1。其中 0 表示没有任何特征,1 表示包含任何特征。 - 数值属性:它是定量的,可以用整数或实数值来衡量和表示数量,有两种类型
间隔缩放属性:
它是在相同大小单位的尺度上测量的,这些属性允许我们以 C 或 F 为单位进行比较,因此属性值具有顺序。 - 比例缩放属性:
对于 Ratio,差异和比率均显着。例如。年龄、长度、体重。
数据质量:我们为什么要预处理数据?
许多特征作为数据质量的决定因素,例如不完整和信息不连贯,这是现实世界中大数据库的共同属性。用于数据质量评估的因素是:
- 准确性:
这里有许多可能的原因导致数据有缺陷或不准确。即具有可能是人为或计算机错误的不正确的属性值。 - 完整性:
由于某些原因,可能会出现不完整的数据,销售和交易数据的客户信息等感兴趣的属性可能并不总是可用。 - 一致性:
命名约定或数据代码不一致,或输入字段格式不一致也可能导致数据不正确。重复的元组也需要清理细节。 - 及时性:
它还影响数据的质量。月底,几位销售代表未能按时提交销售记录。这些也是月底后流入的几次更正和调整。存储在数据库中的数据在每个月之后的一段时间内都是不完整的。 - 可信度:
它反映了用户对数据的信任程度。 - 可解释性:
它反映了用户理解数据的难易程度。