📜  数据挖掘:数据属性和质量

📅  最后修改于: 2021-09-10 02:34:17             🧑  作者: Mango

先决条件 – 数据挖掘
数据:它是数据对象及其属性的存储方式。

  • 属性是对象的属性或特征。例如。一个人的头发颜色、空气湿度等。
  • 属性集定义了一个对象对象也称为实例或实体的记录。

不同类型的属性或数据类型:

  1. 名义属性:
    名义属性仅提供足够的属性来区分一个对象和另一个对象。例如学生名册号,人的性别。
  2. 序数属性:
    序数属性值提供了足够的信息来对对象进行排序。如排名、等级、身高
  3. 二进制属性:
    它们是 0 和 1。其中 0 表示没有任何特征,1 表示包含任何特征。
  4. 数值属性:它是定量的,可以用整数或实数值来衡量和表示数量,有两种类型
    间隔缩放属性:
    它是在相同大小单位的尺度上测量的,这些属性允许我们以 C 或 F 为单位进行比较,因此属性值具有顺序。
  5. 比例缩放属性:
    对于 Ratio,差异和比率均显着。例如。年龄、长度、体重。

数据质量:我们为什么要预处理数据?
许多特征作为数据质量的决定因素,例如不完整和信息不连贯,这是现实世界中大数据库的共同属性。用于数据质量评估的因素是:

  • 准确性:
    这里有许多可能的原因导致数据有缺陷或不准确。即具有可能是人为或计算机错误的不正确的属性值。
  • 完整性:
    由于某些原因,可能会出现不完整的数据,销售和交易数据的客户信息等感兴趣的属性可能并不总是可用。
  • 一致性:
    命名约定或数据代码不一致,或输入字段格式不一致也可能导致数据不正确。重复的元组也需要清理细节。
  • 及时性:
    它还影响数据的质量。月底,几位销售代表未能按时提交销售记录。这些也是月底后流入的几次更正和调整。存储在数据库中的数据在每个月之后的一段时间内都是不完整的。
  • 可信度:
    它反映了用户对数据的信任程度。
  • 可解释性:
    它反映了用户理解数据的难易程度。