📜  数据挖掘中基于分类的方法

📅  最后修改于: 2022-05-13 01:57:01.807000             🧑  作者: Mango

数据挖掘中基于分类的方法

分类是寻找一组描述和区分数据类或概念的模型(或函数)的处理,目的是有能力使用模型来预测类标签未知的对象的类别。确定的模型取决于对一组训练数据信息(即类标签已知的数据对象)的调查。派生模型也可以以各种形式表示,如分类(如果 - 那么)规则、决策树和神经网络。数据挖掘有不同类型的分类器:分类是一种数据分析形式,它提取描述重要数据类的模型。这样的模型称为分类器。例如,我们可以为银行建立一个分类模型来对贷款申请进行分类。

分类的一般方法:

分类是一个两步过程,包括:

学习步骤:这是构建分类模型的步骤。在这个阶段,训练数据通过分类算法进行分析。

分类步骤:这是使用模型来预测给定数据的类别标签的步骤。在这个阶段,测试数据用于估计分类规则的准确性。

分类的基本算法:

  • 决策树归纳
  • 朴素贝叶斯分类
  • 基于规则的分类
  • SVM(支持向量机)
  • 广义线性模型
  • 贝叶斯分类
  • 按反向传播分类
  • K-NN 分类器
  • 基于频繁模式的分类
  • 粗糙集理论
  • 模糊逻辑

决策树归纳:

  • 决策树归纳是从类标记的训练元组中学习决策树。
  • 给定一个元组 X,其关联类标签未知,元组的属性值根据决策树进行测试。
  • 从根到叶节点的路径,该路径保存元组的类预测。
  • 然后将这些树转换为分类规则。
  • 决策树更容易中断,因为它们不需要任何领域知识

朴素贝叶斯分类:

  • 它们是统计分类器。
  • 他们可以预测类成员概率,例如给定元组属于特定类的概率。
  • 朴素分类器假设属性值对类的影响独立于其他属性的值。
  • 这种分类的数学公式是,

P(H|X)=P(X|H)P(X)/P(X)

其中 H 是一个假设,p(H|X) 是 H 持有元组 X 的给定证据的概率(观察数据)

p(X|H) 是以 H 为条件的 X 的后验概率

基于规则的分类:

  • 规则是表示信息或知识的好方法。
  • 基于规则的分类器使用一组 IF-THEN 规则进行分类,并表示为

IF  condition THEN rules

  • IF 部分称为前提条件,THEN 部分称为规则结果。
  • 这意味着只有满足条件时才会执行 next(THEN) 部分。

现在让我们看看如何对异常值进行分类。数据库可能包含不适合 info 的整体行为或模型的数据对象。这些数据对象是异常值。对 OUTLIER 数据的调查理解为 OUTLIER MINING。也可以使用假设信息的分布或概率模型的统计测试来检测或分类异常值,或者使用距离测量,其中在空间中具有一小部分“近”邻居的对象被视为异常值。基于偏差的技术不是使用事实或距离测量,而是通过检查组中事物的主要属性内的差异来区分异常/异常值。

异常值检测(也称为异常检测)是发现具有与预期非常不同的行为的数据对象的过程。此类对象称为异常值或异常值。除了欺诈检测,如医疗救助、公共安全和安保、行业损害检测、图像处理、传感器/视频网络监控和入侵检测,异常值检测在许多应用中都至关重要。

一般来说,异常值通常分为三类,即全局异常值、上下文(或条件)异常值和集体异常值。让我们检查每个类别。

全局异常值:在给定的数据集中,如果知识对象明显偏离信息集的其余部分,则它可能是全局异常值。全局异常值有时被称为点异常,是唯一一种异常值。大多数异常值检测方法旨在寻找全局异常值。

上下文异常值:在给定的数据集中,如果知识对象相对于事物的特定上下文显着偏离,则它也可能是上下文异常值。上下文异常值也称为条件异常值,因为它们取决于所选上下文。因此,在上下文异常值检测中,上下文必须被指定为事物定义的邻域。与全局异常值检测不同,在上下文异常值检测中,知识对象是否为异常值不仅取决于行为属性,还取决于上下文属性。上下文异常值是局部异常值的概括,这是在基于密度的异常值分析方法中引入的概念。如果数据集中的对象的密度显着偏离其发生的局部区域,则该对象可能是局部异常值。

集体异常值:在给定的数据集中,如果对象作为一个整体显着偏离整个数据集,则知识对象的子集形成集体异常值。重要的是,单个数据对象可能不是异常值。与全局或上下文异常值检测不同,在集体异常值检测中,我们不仅要考虑单个对象的行为,还要考虑对象组的行为。因此,为了检测集体异常值,我们需要数据对象之间连接的背景,例如对象之间的距离或相似度测量值。