数据挖掘是指从大量数据中提取或挖掘知识。换句话说,数据挖掘是发现大量复杂数据以发现有用模式的科学、艺术和技术。理论家和从业者不断寻求改进的技术,以使该过程更高效、更经济、更准确。许多其他术语与数据挖掘具有相似或略有不同的含义,例如从数据中挖掘知识、知识提取、数据/模式分析数据挖掘。
数据挖掘被视为另一个常用术语、从数据中发现知识或 KDD 的同义词。在其他人看来,数据挖掘只是知识发现过程中的一个重要步骤,其中应用智能方法来提取数据模式。
Gregory Piatetsky-Shapiro 在 1989 年创造了术语“数据库中的知识发现”。然而,术语“数据挖掘”在商业和新闻界变得越来越流行。目前,数据挖掘和知识发现可以互换使用。
如今,几乎所有存储和处理大量数据的地方都使用数据挖掘。
从数据中发现知识包括以下步骤:
- 数据清理(去除噪音或不相关的数据)。
- 数据集成(可以组合多个数据源)。
- 数据选择(从数据库中检索与分析任务相关的数据)。
- 数据转换(通过对样本执行汇总或聚合功能,将数据转换或合并为适合挖掘的形式)。
- 数据挖掘(应用智能方法以提取数据模式的重要过程)。
- 模式评估(根据一些有趣的度量来识别代表知识的迷人模式)。
- 知识呈现(其中使用知识表示和可视化技术将挖掘出的知识呈现给用户)。
现在我们在这里讨论用于预测期望输出的不同类型的数据挖掘技术。
数据挖掘技术
1. 协会
关联分析是发现关联规则显示在给定数据集中经常一起出现的属性值条件。关联分析广泛用于市场篮子或交易数据分析。关联规则挖掘是数据挖掘研究中一个重要且异常活跃的领域。一种基于关联的分类方法称为关联分类,由两个步骤组成。在主要步骤中,使用称为 Apriori 的标准关联规则挖掘算法的修改版本生成关联指令。第二步根据发现的关联规则构造一个分类器。
2. 分类
分类是寻找一组描述和区分数据类或概念的模型(或函数)的处理,目的是能够使用模型来预测类标签未知的对象的类。确定的模型取决于对一组训练数据信息(即类别标签已知的数据对象)的调查。派生模型可以用各种形式表示,例如分类(if – then)规则、决策树和神经网络。数据挖掘有一种不同类型的分类器:
- 决策树
- SVM(支持向量机)
- 广义线性模型
- 贝叶斯分类:
- 反向传播分类
- K-NN分类器
- 基于规则的分类
- 基于频繁模式的分类
- 粗糙集理论
- 模糊逻辑
决策树:决策树是一种类似于流程图的树结构,其中每个节点表示对属性值的测试,每个分支表示测试的结果,树叶表示类或类分布。决策树可以很容易地转化为分类规则。决策树登记是一种用于构建分类模型的非参数方法。换句话说,它不需要任何关于类和其他属性满足的概率分布类型的先验假设。决策树,尤其是较小尺寸的树,相对容易解释。对于一个非常简单的数据集,树的准确性也可与其他两种分类技术相媲美。这些为学习离散值函数提供了一种表达方式。但是,它们不能很好地简化某些类型的布尔问题。
该图是在 UCI 机器存储库的 IRIS 数据集上生成的。基本上,数据集中提供了三个不同的类别标签:Setosa、Versicolor 和 Virginia。
支持向量机 (SVM) 分类器方法:支持向量机是一种用于分类和另外用于回归的监督学习策略。当支持向量机的输出为连续值时,该学习方法声称进行回归;一旦学习方法将预测输入对象的类别标签,就称为分类。自变量可以是也可以不是定量的。核方程是将一个域中的线性不可分信息转换到另一个域中实例变得线性可分的函数。核方程也是线性的、二次的、高斯的,或者任何可以达到这个特定目的的方程。线性分类技术可以是使用其输入的线性函数作为其决策基础的分类器。应用核方程在多维空间中以间隔的方式排列信息实例,即存在一个将一种知识实例与另一种知识实例分开的超平面。支持向量机的优势在于它们将利用某些内核来转换问题,因此我们能够将线性分类技术应用于非线性知识。一旦我们设法将信息分成两个不同的类,我们的目标就是包含最有效的超平面来分离两种实例。
广义线性模型: 广义线性模型 (GLM) 是一种用于线性建模的统计技术。GLM 提供了广泛的系数统计和模型统计,以及行诊断。它还支持置信界限。
贝叶斯分类:贝叶斯分类器是一种统计分类器。他们可以预测类成员概率,例如,给定样本属于特定类的概率。贝叶斯分类是根据贝叶斯定理创建的。比较分类算法的研究发现,称为朴素贝叶斯分类器的简单贝叶斯分类器在性能上可与决策树和神经网络分类器相媲美。贝叶斯分类器在应用于大型数据库时也表现出很高的准确性和速度。朴素贝叶斯分类器采用给定类的确切属性值独立于其他属性的值。这种假设被称为类条件独立。它是为了简化所涉及的计算,被认为是“幼稚的”。贝叶斯信念网络是图形副本,与朴素贝叶斯分类器不同,它允许描述属性子集之间的依赖关系。贝叶斯信念也可用于分类。
反向传播分类:反向传播通过迭代处理一组训练样本来学习,将网络对每个样本的估计与实际已知的类标签进行比较。对于每个训练样本,修改权重以最小化网络预测与实际类别之间的均方误差。这些变化是在“向后”方向上进行的,即从输出层,通过每个隐藏层向下到第一个隐藏层(因此称为反向传播)。虽然不能保证,但一般情况下,权重最终会收敛,知识过程停止。
K-Nearest Neighbor (K-NN) Classifier Method : k-nearest Neighbor (K-NN) 分类器被考虑作为基于示例的分类器,这意味着训练文档用于比较而不是精确的类说明,就像其他分类器使用的类配置文件一样。因此,没有真正的培训部分。一旦必须对新文档进行分类,就会找到 k 个最相似的文档(邻居),如果它们中有足够大的比例被分配到一个精确的类,则新文档也被指定到当前类,否则不会。此外,使用传统分类策略可以加快寻找最近邻的速度。
基于规则的分类: 基于规则的分类以 If-Then 规则的形式表示知识。根据分类器的准确性和覆盖率评估规则的评估。如果触发了多个规则,那么我们需要在基于规则的分类中解决冲突。可以对三个不同的参数执行冲突解决:大小排序、基于类的排序和基于规则的排序。基于规则的分类器有一些优点,例如:
- 规则比一棵大树更容易理解。
- 规则是相互排斥和详尽无遗的。
- 沿着路径的每个属性值对形成连接:每个叶子都包含类预测。
基于频繁模式的分类:频繁模式发现(或 FP 发现、FP 挖掘或频繁项集挖掘)是数据挖掘的一部分。它描述了在大型数据集中查找最频繁和最相关的模式的任务。这个想法最初是为挖掘交易数据库而提出的。频繁模式被定义为出现在数据集中的频率不低于用户指定或自动确定阈值的子集(项目集、子序列或子结构)。
粗糙集理论: 粗糙集理论可用于分类以发现不精确或嘈杂数据中的结构关系。它适用于离散值特征。因此,连续值属性在使用之前必须是离散的。粗糙集理论基于在给定训练数据中建立等价类。构成一个相似类的所有数据样本都是不可分辨的,即样本在描述数据的属性方面是相等的。粗糙集也可用于特征减少(其中可以识别和删除对给定训练数据的分类没有贡献的属性)和相关性分析(其中每个属性的贡献或重要性相对于分类进行评估任务)。找到可以描述给定数据集中所有概念的最小属性子集(编校)的问题是 NP 难题。然而,已经提出了降低计算强度的算法。例如,在一种方法中,使用可辨别矩阵来存储每对数据样本的属性值之间的差异。不是指向整个训练集,而是搜索矩阵以检测冗余属性。
模糊逻辑:基于规则的分类系统的缺点是它们涉及连续属性的急剧截止。模糊逻辑对于执行分组/分类的数据挖掘框架很有价值。它提供了在高抽象层次上工作的好处。一般来说,模糊逻辑在基于规则的系统中的使用涉及以下内容:
- 属性值更改为模糊值。
- 对于给定的新数据集/示例,可能应用多个模糊规则。每个适用的规则都会为类别中的成员资格投票。通常,对每个投影类别的真值求和。
3. 预测
数据预测是一个两步过程,类似于数据分类。虽然,对于预测,我们不使用“类标签属性”的措辞,因为被预测值的属性是一致的(有序的)而不是分类的(离散的和无序的)。该属性可以简称为预测属性。预测可以被视为构建和使用模型来评估未标记对象的类别,或评估给定对象可能具有的属性的值或值范围。
4.聚类
与分析标有类标签的数据对象或属性的分类和预测不同,聚类分析数据对象而无需咨询已识别的类标签。一般来说,训练数据中不存在类标签,因为它们不知道是从哪里开始的。聚类可用于生成这些标签。根据最大化类内相似度和最小化类间相似度的原则对对象进行聚类。即,创建对象簇,使得簇内的对象彼此对比具有高相似度,但在其他簇中是不同的对象。生成的每个集群都可以看作是一类对象,从中可以推断出规则。聚类还可以促进分类的形成,即将观察结果组织成类的层次结构,将相似的事件组合在一起。
5. 回归
回归可以定义为一种统计建模方法,其中使用先前获得的数据来预测新观测值的连续量。该分类器也称为连续值分类器。有两种类型的回归模型:线性回归和多元线性回归模型。
6.人工神经网络(ANN)分类器方法
人工神经网络 (ANN) 也简称为“神经网络”(NN),可以是生物神经网络支持的过程模型。它由相互连接的人工神经元集合组成。神经网络是一组连接的输入/输出单元,其中每个连接都有一个与之相关的权重。在知识阶段,网络通过调整权重来获取能够预测输入样本的正确类标签。由于单元之间的连接,神经网络学习也被称为连接学习。神经网络涉及较长的训练时间,因此更适用于可行的应用程序。它们需要许多参数,这些参数通常最好凭经验确定,例如网络拓扑或“结构”。神经网络因其较差的可解释性而受到批评,因为人类很难理解学习权重背后的象征意义。这些特征首先使神经网络不太适合数据挖掘。
然而,神经网络的优势在于它们对噪声数据的高度容忍以及它们对未经训练的模式进行分类的能力。此外,新开发了几种算法,用于从训练有素的神经网络中提取规则。这些问题有助于神经网络在数据挖掘中进行分类。
人工神经网络是一个形容词系统,它在学习阶段改变流经人工网络的结构支持信息。人工神经网络依赖于通过实例学习的原则。有两种经典类型的神经网络,感知器和多层感知器。
7. 异常值检测
数据库可能包含不符合数据的一般行为或模型的数据对象。这些数据对象是异常值。对异常数据的调查被称为异常挖掘。可以使用假设数据的分布或概率模型的统计测试来检测异常值,或者使用距离度量来检测异常值,其中在空间中具有一小部分“近”邻居的对象被认为是异常值。基于偏差的技术不是利用事实或距离度量,而是通过检查组中项目的主要属性的差异来区分异常/异常值。
8. 遗传算法
遗传算法是自适应启发式搜索算法,属于进化算法的较大部分。遗传算法基于自然选择和遗传学的思想。这些是对随机搜索的智能利用,提供历史数据,以将搜索引导到解决方案空间中性能更好的区域。它们通常用于为优化问题和搜索问题生成高质量的解决方案。遗传算法模拟自然选择的过程,这意味着那些能够适应环境变化的物种能够生存和繁殖并传给下一代。简单来说,他们模拟了连续几代人之间的“适者生存”来解决问题。每一代都由一群个体组成,每个个体代表搜索空间中的一个点和可能的解决方案。每个个体都表示为字符串字符/integer/float/bits。这个字符串类似于染色体。