📜  了解数据属性类型定性和定量

📅  最后修改于: 2021-05-24 17:57:56             🧑  作者: Mango

先决条件:数据挖掘

当谈论数据挖掘时,我们通常讨论从数据中发现知识。要了解数据,有必要讨论数据对象,数据属性和数据属性的类型。挖掘数据包括了解数据,查找数据之间的关系。为此,我们需要讨论数据对象和属性。

数据对象是数据库的重要组成部分。数据对象代表实体。数据对象就像实体的一组属性。例如,销售数据对象可以代表客户,销售或购买。当数据对象在数据库中列出时,它们称为数据元组。

属性:
可以将其视为代表数据对象的特征或特征的数据字段。对于客户而言,对象属性可以是客户ID,地址等。可以说,用于描述给定对象的一组属性称为属性向量或特征向量。

属性类型:

这是数据数据预处理的第一步。我们区分不同类型的属性,然后对数据进行预处理。因此,这里是属性类型的描述。

  1. 定性的(标称(N),序数(O),二进制(B))。
  2. 定量(数值,离散,连续)

定性属性:

1.标称属性–与名称有关:标称属性的值是事物的名称,是某种符号。名义属性的值表示某种类别或状态,这就是为什么名义属性也称为分类属性,并且名义属性的值之间没有顺序(等级,位置)的原因。
例子 :

2.二进制属性:二进制数据只有2个值/状态。例如,是或否,受影响或不受影响,是或否。

  • 对称:这两个值同等重要(性别)。
  • 不对称:这两个值不是同等重要(结果)。

3.序数属性:序数属性包含的值之间具有有意义的顺序或排名(顺序),但实际上并不知道这些值之间的大小,值的顺序显示重要但不指示其重要性是。

定量属性:

1.数值:数值属性是定量的,因为它是可测量的量,以整数或实数值表示。数值属性有2种类型,间隔比率

  • 间隔缩放的属性具有可以解释其差异的值,但是数字属性没有正确的参考点,或者我们可以将其称为零点。可以按间隔比例添加和减去数据,但不能相乘或相除。考虑以摄氏度为单位的温度示例。如果一天的温度是另一天的两倍,我们就不能说一天的温度是另一天的温度的两倍。
  • 比例缩放属性是具有固定零点的数字属性。如果度量是比例缩放的,我们可以说一个值是另一个值的倍数(或比率)。这些值是有序的,我们还可以计算值之间的差,并且可以给出均值,中位数,众数,分位数范围和5个数的汇总。

2.离散:离散数据具有有限值,可以是数字,也可以是分类形式。这些属性具有一组有限或无数个值。

例子:

3.连续的:连续的数据具有无限个状态。连续数据是浮点型的。 2到3之间可以有很多值。

例子 :