📝 数据挖掘教程
24篇技术文档📅  最后修改于: 2021-01-11 06:32:36        🧑  作者: Mango
文本数据库包含大量文档。他们从新闻,书籍,数字图书馆,电子邮件,网页等多种来源收集这些信息。由于信息量的增加,文本数据库正在迅速发展。在许多文本数据库中,数据都是半结构化的。例如,文档可能包含一些结构化字段,例如标题,作者,publishing_date等。但是除了结构数据外,文档还包含非结构化文本组件,例如摘要和内容。不知道文档中可能包含什么内容,很难制定有效的查询来分析和从数据中提取有用的信息...
📅  最后修改于: 2021-01-11 06:33:02        🧑  作者: Mango
万维网包含大量信息,这些信息为数据挖掘提供了丰富的资源。网络挖掘的挑战基于以下观察,网络对资源和知识发现提出了巨大挑战-Web太大-Web的大小非常巨大并且正在迅速增加。看来对于数据仓库和数据挖掘来说,网络太大了。网页的复杂性−网页没有统一的结构。与传统的文本文档相比,它们非常复杂。网络数字图书馆中有大量文件。这些库不是按照任何特定的排序顺序排列的。Web是动态信息源-Web上的信息会快速更新。定...
📅  最后修改于: 2021-01-11 06:34:19        🧑  作者: Mango
数据挖掘被广泛应用于各个领域。今天有许多商业数据挖掘系统可用,但是在这一领域中存在许多挑战。在本教程中,我们将讨论数据挖掘的应用程序和趋势。数据挖掘应用这是广泛使用数据挖掘的区域列表-财务数据分析零售业电信业生物数据分析其他科学应用入侵检测财务数据分析银行和金融业中的金融数据通常是可靠且高质量的,这有助于系统的数据分析和数据挖掘。一些典型的情况如下-设计和构建用于多维数据分析和数据挖掘的数据仓库。...
📅  最后修改于: 2021-01-11 06:35:02        🧑  作者: Mango
数据挖掘的理论基础数据挖掘的理论基础包括以下概念-数据精简-该理论的基本思想是减少数据表示形式,该数据表示形式是为了响应对大型数据库中查询的快速近似答案的需求而以准确性为代价。一些数据缩减技术如下-奇异值分解小波回归对数线性模型直方图聚类采样索引树的构建数据压缩-该理论的基本思想是通过以下方面的编码来压缩给定数据-位关联规则决策树集群模式发现-该理论的基本思想是发现数据库中发生的模式。以下是对该理...
📅  最后修改于: 2021-01-11 06:35:28        🧑  作者: Mango
以下资源包含有关数据挖掘的其他信息。请使用它们来获得有关该主题的更深入的知识。数据挖掘的有用链接数据挖掘-一个维基页面,简要介绍了数据挖掘。有用的数据挖掘书籍要在此页面上注册您的网站,请发送电子邮件至...
📅  最后修改于: 2021-01-11 06:35:42        🧑  作者: Mango
数据挖掘定义为从大量数据中提取信息的过程。换句话说,我们可以说数据挖掘是从数据中挖掘知识。本教程从基本概述和数据挖掘所涉及的术语开始,然后逐步进行发展,以涵盖诸如知识发现,查询语言,分类和预测,决策树归纳,集群分析以及如何挖掘Web之类的主题。...
📅  最后修改于: 2022-05-13 01:56:59.370000        🧑  作者: Mango
STING – 数据挖掘中的统计信息网格STING 是一种基于网格的聚类技术。在 STING 中,数据集以分层方式递归划分。在数据集之后,每个单元格被分成不同数量的单元格。并且在单元格之后,收集单元格的统计度量,这有助于尽快回答查询。数据挖掘中基于网格的方法:在基于网格的方法中,实例空间被划分为网格结构。然后使用网格的单元而不是单个数据点作为基本单位来应用聚类技术。这种方法最大的优点是提高了处理时...
📅  最后修改于: 2022-05-13 01:56:59.373000        🧑  作者: Mango
数据挖掘中的主成分分析降维是有效分析海量高维数据集的必要步骤。它可能是数据挖掘中用于分析和可视化高维数据的主要目标,也可能是启用其他分析(如聚类)的中间步骤。主成分分析是一种数据缩减技术,可将大量相关变量转换为较小的一组相关变量,称为主成分。简单来说,主成分分析是一种从数据集中可用的大量变量中提取重要变量的方法,它从高维数据集中提取一组低维特征,目的是尽可能多地捕获信息(方差)数据。主成分分析主要...
📅  最后修改于: 2022-05-13 01:56:59.376000        🧑  作者: Mango
人工神经网络术语ANN(Artificial Neural Network)是基于BNN(Biological Neural Network),其主要目标是充分模仿人脑及其功能。类似于大脑具有相互连接的神经元,人工神经网络也具有在称为节点的网络的各个层中相互连接的神经元。ANN 通过各种学习算法进行学习,这些算法被描述为有监督或无监督学习。在监督学习算法中,目标值被标记。它的目标是尽量减少期望输出...