粗糙集理论 |属性和重要条款 |套装

先决条件——粗糙集理论

粗糙集分析的主要目标是归纳概念的近似。粗糙集构成了数据库中知识发现的良好基础。它提供了数学工具来发现隐藏在数据中的模式。可用于特征选择、特征提取、数据约简、决策规则生成和模式提取(模板、关联规则)等。识别数据中的部分或全部依赖关系，消除冗余数据，对空值、缺失数据进行处理、动态数据等。

粗糙集的四个基本类：

粗糙集理论有四个基本类——

准确性：
测量粗糙集与目标集 X 的接近程度的集合 X 的粗糙集的准确度给出为：

其中|X|表示不为空的集合 X 的基数。显然，α _p (X) 将介于 [0, 1] –

如果 α _p (X)= 1，则上下近似值相等，并且 X 成为相对于 P 的清晰集合。
如果 α _p (X) < 1，则 X 相对于 P 是粗糙的。
如果 α _p (X)= 0，则下近似为空(无论上近似的大小如何)。

属性依赖：
数据库分析最重要的方面之一是发现属性依赖性。它描述了哪些变量与哪些其他变量密切相关。属性集 Q 完全依赖于属性集 P，表示如果来自 Q 的所有属性值都由来自 P 的属性值唯一确定。在粗糙集理论中，依赖的概念定义非常简单。

让我们取两个不相交的属性集，P 集和 Q 集。每个属性集都引入了一个不可分辨或等价的类结构。由 P 诱导的等价类由 [x] _P给出，由 Q 诱导的等价类由 [x] _{Q 给出}。令，Q _i是由属性集 Q 诱导的等价类结构中的给定等价类。

注意 –

如果 k 或 γ(P, Q)= 1，Q 完全取决于 P。
如果 k 或 γ(P, Q)< 1，Q 部分(在 k 度上)取决于 P。

减少：
相同或不可分辨的对象可能会被表示多次。某些属性可能是多余的或多余的。我们应该只保留那些保持不可分辨关系并因此设置近似值的属性。通常有几个这样的属性子集，最小的称为Reduct 。因此，Reduct 是一组足够的特征，其本身可以完全表征数据库中的知识。 Reduct 的一些重要特性是——

产生与由 [x] _RED = [x] _P表示的完整属性集所表示的相同的等价类结构。
它是最小的。
它不是独一无二的。

减少计算的算法 –

Input:
 C, the set of all conditional features
 D, the set of all decisional features

Output: R, a feature subset

1. T := { }, R : = { }
2. repeat
3. T : = R
4. ∀ x ∈ (C – R )
5. if γ RU{X} ( D ) > γT( D )
6. T : = R U {x}
7. R : = T
8. until γR( D ) = γC( D )
9. return R

核：
核心是所有归约通用的属性集，用CORE(P) = ∩ (RED(P)) 表示。 Core 的一些重要特性是——

它由不能在不导致等价类结构崩溃的情况下删除的属性组成。
它可能是空的。
它是一组必要的属性。如果我们把信息表中的核心属性去掉，就会导致数据不一致。

Reductions 和 Core 的一个例子——

信息表——在 Rough Set 中，数据模型信息存储在一个表中。每行代表一个事实或一个对象。在粗糙集术语中，数据表称为信息系统。因此，信息表表示从任何域收集的输入数据。让我们将信息表作为 –

减少计算：

集合{Muscle-pain, Temp.}是原始属性集合 {Headache, Muscle_ pain, Temp.} 的简化。所以， Reduct1 = {Muscle-pain, Temp.} 。基于此 Reduct1 的新信息表表示为 –

集合{Headache, Temp.}是原始属性集合 {Headache, Muscle_ pain, Temp.} 的简化。所以， Reduct2 = {Headache, Temp.} 。基于此 Reduct2 的新信息表表示为 –

所以核心将是所有约简的交集。核心={头痛，温度}∩{肌肉疼痛，温度}={温度}

参考：
http://zsi.tech.us.edu.pl/~nowak/bien/w2.pdf
https://www.sciencedirect.com/science/article/pii/S2468232216300786
https://www.mimuw.edu.pl/~son/datamining/RSDM/Intro.pdf