📝 数据挖掘教程
24篇技术文档📅  最后修改于: 2021-01-11 06:24:49        🧑  作者: Mango
数据挖掘定义为从大量数据中提取信息的过程。换句话说,我们可以说数据挖掘是从数据中挖掘知识。本教程从基本概述和数据挖掘所涉及的术语开始,然后逐步进行发展,以涵盖诸如知识发现,查询语言,分类和预测,决策树归纳,集群分析以及如何挖掘Web之类的主题。本教程是为计算机科学专业的毕业生准备的,以帮助他们理解与数据挖掘相关的基础到高级概念。先决条件在继续本教程之前,您应该了解基本的数据库概念,例如架构,ER模...
📅  最后修改于: 2021-01-11 06:25:16        🧑  作者: Mango
信息产业中有大量数据可用。除非将其转换为有用的信息,否则这些数据将无用。有必要分析大量数据并从中提取有用的信息。信息提取不是我们需要执行的唯一过程;数据挖掘还涉及其他过程,例如数据清理,数据集成,数据转换,数据挖掘,模式评估和数据表示。一旦所有这些过程结束,我们将能够在许多应用程序中使用此信息,例如欺诈检测,市场分析,生产控制,科学探索等。什么是数据挖掘?数据挖掘的定义是从大量数据中提取信息。换句...
📅  最后修改于: 2021-01-11 06:26:00        🧑  作者: Mango
数据挖掘处理可以挖掘的模式。根据要挖掘的数据类型,数据挖掘涉及两类功能:描述性分类与预测描述功能描述函数处理数据库中数据的一般属性。这是描述函数的列表-类/概念说明频繁模式的挖掘协会的挖掘相关性的挖掘集群挖掘类/概念说明类/概念是指与类或概念相关联的数据。例如,在一家公司中,待售商品的类别包括计算机和打印机,而客户的概念则包括大笔支出和预算支出。类或概念的此类描述称为类/概念描述。这些描述可以通过...
📅  最后修改于: 2021-01-11 06:26:33        🧑  作者: Mango
数据挖掘不是一件容易的事,因为使用的算法会变得非常复杂,而且数据并不总是在一个地方可用。它需要从各种异构数据源进行集成。这些因素也会产生一些问题。在本教程的此处,我们将讨论有关以下方面的主要问题:挖掘方法和用户交互性能问题多种数据类型问题下图描述了主要问题。挖掘方法和用户交互问题它涉及以下种类的问题-在数据库中挖掘不同种类的知识-不同的用户可能对不同种类的知识感兴趣。因此,数据挖掘有必要涵盖广泛的...
📅  最后修改于: 2021-01-11 06:27:06        🧑  作者: Mango
数据仓库数据仓库具有以下特征,以支持管理层的决策过程-面向主题-数据仓库是面向主题的,因为它为我们提供了围绕主题的信息,而不是组织的持续运营。这些主题可以是产品,客户,供应商,销售,收入等。数据仓库不关注正在进行的操作,而是关注数据的建模和分析以进行决策。集成-数据仓库是通过集成来自异构源(例如关系数据库,平面文件等)的数据而构建的。这种集成可增强对数据的有效分析。时变-在特定时间段内识别在数据仓...
📅  最后修改于: 2021-01-11 06:27:33        🧑  作者: Mango
数据挖掘数据挖掘的定义是从大量数据中提取信息。换句话说,我们可以说数据挖掘是从数据中挖掘知识。此信息可以用于以下任何应用程序-市场分析欺诈识别客户保留产品控制科学探索数据挖掘引擎数据挖掘引擎对于数据挖掘系统非常重要。它由一组执行以下功能的功能模块组成-表征关联和相关分析分类预测聚类分析离群分析进化分析知识库这是领域知识。该知识用于指导搜索或评估结果模式的趣味性。知识发现有些人将数据挖掘与知识发现等...
📅  最后修改于: 2021-01-11 06:27:50        🧑  作者: Mango
什么是知识发现?有些人没有将数据挖掘与知识发现区分开来,而另一些人则认为数据挖掘是知识发现过程中必不可少的步骤。这是知识发现过程中涉及的步骤列表-数据清理-在此步骤中,消除了噪声和不一致的数据。数据集成-在此步骤中,将合并多个数据源。数据选择-在此步骤中,从数据库中检索与分析任务相关的数据。数据转换-在此步骤中,通过执行汇总或聚合操作,将数据转换或合并为适合挖掘的形式。数据挖掘-在此步骤中,将应用...
📅  最后修改于: 2021-01-11 06:28:18        🧑  作者: Mango
有各种各样的数据挖掘系统可用。数据挖掘系统可以集成以下技术:空间数据分析信息检索模式识别图像分析信号处理电脑图像网络技术商业生物信息学数据挖掘系统分类数据挖掘系统可以根据以下标准进行分类-数据库技术统计机器学习情报学可视化其他学科除此之外,还可以基于以下类型对数据挖掘系统进行分类:(a)挖掘的数据库,(b)挖掘的知识,(c)使用的技术和(d)适应的应用程序。基于挖掘的数据库的分类我们可以根据挖掘的...
📅  最后修改于: 2021-01-11 06:28:58        🧑  作者: Mango
数据挖掘查询语言(DMQL)由Han,Fu,Wang等人提出。用于DBMiner数据挖掘系统。数据挖掘查询语言实际上是基于结构化查询语言(SQL)的。数据挖掘查询语言可以设计为支持即席和交互式数据挖掘。该DMQL提供用于指定原语的命令。 DMQL也可以与数据库和数据仓库一起使用。 DMQL可用于定义数据挖掘任务。特别是,我们研究了如何在DMQL中定义数据仓库和数据集市。与任务相关的数据规范的语法这...
📅  最后修改于: 2021-01-11 06:29:40        🧑  作者: Mango
数据分析有两种形式,可用于提取描述重要类别的模型或预测未来的数据趋势。这两种形式如下-分类预测分类模型预测分类类别标签;预测模型预测连续值函数。例如,我们可以建立一个分类模型,将银行贷款申请分类为安全或风险分类,或者建立一个预测模型,根据潜在客户的收入和职业,预测其在计算机设备上的美元支出。什么是分类?以下是数据分析任务为分类的情况的示例-银行信贷员想分析数据,以便知道哪个客户(贷款申请人)有风险...
📅  最后修改于: 2021-01-11 06:30:03        🧑  作者: Mango
决策树是包括根节点,分支和叶节点的结构。每个内部节点表示对属性的测试,每个分支表示测试的结果,并且每个叶节点均具有类标签。树中最顶层的节点是根节点。以下决策树用于概念buy_computer,该概念指示公司的客户是否可能购买计算机。每个内部节点代表一个对属性的测试。每个叶节点代表一个类。拥有决策树的好处如下-它不需要任何领域知识。很容易理解。决策树的学习和分类步骤既简单又快速。决策树归纳算法一位名...
📅  最后修改于: 2021-01-11 06:30:30        🧑  作者: Mango
贝叶斯分类基于贝叶斯定理。贝叶斯分类器是统计分类器。贝叶斯分类器可以预测类成员的概率,例如给定元组属于特定类的概率。贝叶定理贝叶斯定理以托马斯·贝叶斯命名。有两种类型的概率-后验概率[P(H / X)]先验概率[P(H)]其中X是数据元组,H是一些假设。根据贝叶斯定理,P(H / X)= P(X / H)P(H)/ P(X)贝叶斯信念网络贝叶斯信念网络指定联合条件概率分布。它们也被称为信仰网络,贝...
📅  最后修改于: 2021-01-11 06:30:56        🧑  作者: Mango
IF-THEN规则基于规则的分类器利用一组IF-THEN规则进行分类。我们可以从以下表达规则-如果条件然后结论让我们考虑一个规则R1,要记住的要点-规则的IF部分称为规则前提或前提条件。规则的THEN部分称为规则后继。条件的前一部分由一个或多个属性测试组成,并且这些测试在逻辑上进行“与”运算。结果部分包括类预测。注意-我们还可以如下编写规则R1-如果条件对于给定的元组成立,则满足先决条件。规则提取...
📅  最后修改于: 2021-01-11 06:31:32        🧑  作者: Mango
在这里,我们将讨论其他分类方法,例如遗传算法,粗糙集方法和模糊集方法。遗传算法遗传算法的思想源于自然进化。在遗传算法中,首先创建初始种群。此初始种群由随机生成的规则组成。我们可以用字符串比特表示每个规则。例如,在给定的训练集中,样本由两个布尔属性(例如A1和A2)描述。这个给定的训练集包含两个类别,例如C1和C2。我们可以将规则IF A1而不是A2然后将C2编码为位字符串100。在该位表示中,最左...
📅  最后修改于: 2021-01-11 06:32:09        🧑  作者: Mango
群集是属于同一类的一组对象。换句话说,相似的对象被分组在一个群集中,而不同的对象被分组在另一群集中。什么是群集?聚类是将一组抽象对象变成相似对象类的过程。要记住的要点一组数据对象可以视为一组。在进行聚类分析时,我们首先根据数据相似性将数据集划分为组,然后将标签分配给组。聚类优于分类的主要优点是,它可以适应变化,并有助于区分出不同组的有用功能。聚类分析的应用聚类分析广泛用于许多应用程序,例如市场研究...