一般而言, “采矿”是从地球上提取一些有价值的材料的过程,例如煤炭开采,钻石开采等。在计算机科学的上下文中, “数据挖掘”是指从大量数据中提取有用的信息或数据仓库。可以看到,该术语本身有点令人困惑。在煤炭或钻石开采的情况下,提取过程的结果是煤炭或钻石。但是在数据挖掘的情况下,提取过程的结果不是数据!!相反,数据挖掘的结果是我们在提取过程结束时获得的模式和知识。从这种意义上讲,数据挖掘也称为知识发现或知识提取。 Gregory Piatetsky-Shapiro于1989年提出了“数据库中的知识发现”一词。但是,“数据挖掘”一词在商业和新闻界变得越来越流行。当前,数据挖掘和知识发现可以互换使用。如今,数据挖掘已在几乎所有存储和处理大量数据的地方使用。例如,银行通常使用“数据挖掘”来找出可能对信用卡,个人贷款或保险感兴趣的潜在客户。由于银行拥有客户的交易详细信息和详细的个人资料,因此他们会分析所有这些数据,并尝试找出模式,以帮助银行预测某些客户可能对个人贷款等感兴趣。
数据挖掘的主要目的
基本上,从数据挖掘中收集的信息有助于预测隐藏的模式,未来的趋势和行为,并允许企业做出决策。
从技术上讲,数据挖掘是从不同角度,维度,角度分析数据并将其分类/汇总为有意义的信息的计算过程。
数据挖掘可以应用于任何类型的数据,例如数据仓库,事务数据库,关系数据库,多媒体数据库,空间数据库,时间序列数据库,万维网。
整个数据挖掘过程
数据挖掘的整个过程包括三个主要阶段:
1.数据预处理–进行数据清理,集成,选择和转换
2.数据提取–进行精确的数据挖掘
3.数据评估和演示–分析和演示结果
在以后的文章中,我们将介绍每个阶段的详细信息。
数据挖掘的应用
1.财务分析
2.生物学分析
3.科学分析
4.入侵检测
5.欺诈检测
6.研究分析
数据挖掘的真实例子–市场篮分析
市场购物篮分析是一种技术,它可以仔细研究客户在超级市场中所做的购买。该概念基本上用于识别客户一起购买的物品。假设某人购买面包,那么他/她也有可能购买黄油。该分析有助于促进公司的报价和交易。在数据挖掘的帮助下也是如此。