先决条件——粗糙集理论
粗糙集分析的主要目标是归纳概念的近似。粗糙集构成了数据库中知识发现的良好基础。它提供了数学工具来发现隐藏在数据中的模式。可用于特征选择、特征提取、数据约简、决策规则生成和模式提取(模板、关联规则)等。 识别数据中的部分或全部依赖关系,消除冗余数据,对空值、缺失数据进行处理、动态数据等。
粗糙集的四个基本类:
粗糙集理论有四个基本类——
准确性:
测量粗糙集与目标集 X 的接近程度的集合 X 的粗糙集的准确度给出为:
其中|X|表示不为空的集合 X 的基数。显然,α p (X) 将介于 [0, 1] –
- 如果 α p (X)= 1,则上下近似值相等,并且 X 成为相对于 P 的清晰集合。
- 如果 α p (X) < 1,则 X 相对于 P 是粗糙的。
- 如果 α p (X)= 0,则下近似为空(无论上近似的大小如何)。
属性依赖:
数据库分析最重要的方面之一是发现属性依赖性。它描述了哪些变量与哪些其他变量密切相关。属性集 Q 完全依赖于属性集 P,表示如果来自 Q 的所有属性值都由来自 P 的属性值唯一确定。在粗糙集理论中,依赖的概念定义非常简单。
让我们取两个不相交的属性集,P 集和 Q 集。每个属性集都引入了一个不可分辨或等价的类结构。由 P 诱导的等价类由 [x] P给出,由 Q 诱导的等价类由 [x] Q 给出。令,Q i是由属性集 Q 诱导的等价类结构中的给定等价类。
注意 –
- 如果 k 或 γ(P, Q)= 1,Q 完全取决于 P。
- 如果 k 或 γ(P, Q)< 1,Q 部分(在 k 度上)取决于 P。
减少:
相同或不可分辨的对象可能会被表示多次。某些属性可能是多余的或多余的。我们应该只保留那些保持不可分辨关系并因此设置近似值的属性。通常有几个这样的属性子集,最小的称为Reduct 。因此,Reduct 是一组足够的特征,其本身可以完全表征数据库中的知识。 Reduct 的一些重要特性是——
- 产生与由 [x] RED = [x] P表示的完整属性集所表示的相同的等价类结构。
- 它是最小的。
- 它不是独一无二的。
减少计算的算法 –
Input:
C, the set of all conditional features
D, the set of all decisional features
Output: R, a feature subset
1. T := { }, R : = { }
2. repeat
3. T : = R
4. ∀ x ∈ (C – R )
5. if γ RU{X} ( D ) > γT( D )
6. T : = R U {x}
7. R : = T
8. until γR( D ) = γC( D )
9. return R
核:
核心是所有归约通用的属性集,用CORE(P) = ∩ (RED(P)) 表示。 Core 的一些重要特性是——
- 它由不能在不导致等价类结构崩溃的情况下删除的属性组成。
- 它可能是空的。
- 它是一组必要的属性。如果我们把信息表中的核心属性去掉,就会导致数据不一致。
Reductions 和 Core 的一个例子——
信息表——在 Rough Set 中,数据模型信息存储在一个表中。每行代表一个事实或一个对象。在粗糙集术语中,数据表称为信息系统。因此,信息表表示从任何域收集的输入数据。让我们将信息表作为 –
减少计算:
集合{Muscle-pain, Temp.}是原始属性集合 {Headache, Muscle_ pain, Temp.} 的简化。所以, Reduct1 = {Muscle-pain, Temp.} 。基于此 Reduct1 的新信息表表示为 –
集合{Headache, Temp.}是原始属性集合 {Headache, Muscle_ pain, Temp.} 的简化。所以, Reduct2 = {Headache, Temp.} 。基于此 Reduct2 的新信息表表示为 –
所以核心将是所有约简的交集。核心={头痛,温度}∩{肌肉疼痛,温度}={温度}
参考:
http://zsi.tech.us.edu.pl/~nowak/bien/w2.pdf
https://www.sciencedirect.com/science/article/pii/S2468232216300786
https://www.mimuw.edu.pl/~son/datamining/RSDM/Intro.pdf