📜  数据挖掘中的属性相关性分析

📅  最后修改于: 2021-09-09 11:11:50             🧑  作者: Mango

属性分析方法:
在 AI 方面已经有大量的调查,洞察力,关于质量相关性调查的蓬松和苛刻的假设。特征相关性检查背后的总体思想是处理一些用于评估与给定类别或想法有关的特征的重要性的指标。这些措施包括数据收集、基尼指数、不确定性和连接系数。

让我们一一讨论。

  1. 数据采集 –
    通过查询处理收集目标类和区分类的信息。对于类相关性,信息挖掘问题中的客户端同时给出了客观类和区分类。对于类刻画,客观类是被刻画的类,而区分类是不属于客观类的相似信息的排列。
  2. 使用保守的 AOI(面向属性的归纳)进行初步相关性分析 –
    此步骤识别要应用所选重要性度量的一组度量和特征。由于不同程度的测量对于给定的类别可能具有极其独特的重要性,因此对于基本水平的显着性检查,应该记住表征测量的计算水平的每个质量。
    (AOI) 可用于通过消除或总结具有大量明确无误的质量(例如,姓名和电话号码)的质量来对信息进行一些初始重要性检查。这些特征可能不会被发现有助于创意描绘。通过属性归纳的这种应用获得的关系称为挖掘任务的候选关系。
  3. 使用选定的相关性分析措施删除不相关和弱属性 –
    我们使用相关性分析度量的重要性来评估候选关系中的每个质量。这一步带来了一个底层的目标类工作连接,并启动了一个差异化的类工作连接。然后根据计算出的属性与数据挖掘任务的相关性对属性进行排序(即排名)。

  4. 使用 AOI 生成概念描述 –
    使用不太保守的特征推测限制安排来执行 AOI。如果明确无误的挖掘任务是类描述,则此处仅包含底层目标类工作连接。如果表达挖掘任务是类检查,则包含潜在的目标类工作连接和潜在的区分类工作连接。

相关性测量组件:

  1. 信息增益 (ID3)
  2. 增益比 (C4.5)
  3. 基尼系数
  4. Chi^2列联表统计
  5. 不确定系数