先决条件:数据挖掘
当我们谈论数据挖掘时,我们通常讨论从数据中发现知识。要了解数据,有必要讨论数据对象、数据属性和数据属性的类型。挖掘数据包括了解数据,发现数据之间的关系。为此,我们需要讨论数据对象和属性。
数据对象是数据库的重要组成部分。数据对象代表实体。数据对象就像一个实体的一组属性。例如,销售数据对象可能代表客户、销售或采购。当一个数据对象在数据库中列出时,它们被称为数据元组。
属性:
可以将其视为表示数据对象的特征或特征的数据字段。对于客户,对象属性可以是客户 ID、地址等。我们可以说,用于描述给定对象的一组属性称为属性向量或特征向量。
属性类型:
这是数据数据预处理的第一步。我们区分不同类型的属性,然后预处理数据。所以这里是属性类型的描述。
- 定性(名义 (N)、序数 (O)、二进制 (B))。
- 定量(数字、离散、连续)
定性属性:
1. 名义属性——与名称相关:名义属性的值是事物的名称,某种符号。名义属性的值代表某个类别或状态,这就是为什么名义属性也称为分类属性,并且名义属性的值之间没有顺序(等级、位置)。
例子 :
2. 二进制属性:二进制数据只有 2 个值/状态。例如是或否,受影响或不受影响,真或假。
- 对称:两个值同等重要(性别)。
- 不对称:两个值并不同等重要(结果)。
3.序数属性:序数属性包含在它们之间具有有意义的序列或排名(顺序)的值,但实际上并不知道值之间的大小,值的顺序显示什么是重要的但不表明它有多重要是。
数量属性:
1. 数字:数字属性是定量的,因为它是一个可测量的数量,以整数或实数值表示。数值属性有 2 种类型, interval和ratio 。
- 一个区间标度的属性有值,其差异是可以解释的,但数值属性没有正确的参考点,或者我们可以称之为零点。数据可以按区间刻度进行加减运算,但不能进行乘除运算。考虑以摄氏度为单位的温度示例。如果一天的温度是另一天的两倍,我们不能说一天是另一天的两倍。
- 比例缩放属性是具有固定零点的数值属性。如果测量是按比例缩放的,我们可以说一个值是另一个值的倍数(或比率)。值是有序的,我们还可以计算值之间的差异,可以给出均值、中值、众数、分位数范围和五数汇总。
2. 离散:离散数据具有有限值,它可以是数字形式,也可以是分类形式。这些属性具有有限或可数无限的一组值。
例子:
3. 连续:连续数据有无限多个状态。连续数据为浮点型。 2 到 3 之间可以有很多值。
例子 :