数据挖掘的应用
数据是一组关于事件或过程的离散客观事实,除非转换为信息,否则它们本身几乎没有用处。我们一直在收集大量数据,从简单的数值测量和文本文档到更复杂的信息,例如空间数据、多媒体通道和超文本文档。
如今,大量的数据正在积累。据说收集的数据量每年几乎翻一番。从这些海量数据中提取数据或寻求知识,使用了数据挖掘技术。几乎所有需要存储和处理大量数据的地方都会用到数据挖掘。例如,银行通常使用“数据挖掘”来找出可能对信用卡、个人贷款或保险感兴趣的潜在客户。由于银行拥有客户的交易详情和详细资料,他们分析所有这些数据并试图找出有助于他们预测某些客户可能对个人贷款等感兴趣的模式。
基本上,挖掘数据背后的动机,无论是商业的还是科学的,都是一样的——需要在数据中找到有用的信息,以便做出更好的决策或更好地了解我们周围的世界。
“Extraction of interesting information or patterns from data in large databases is known as data mining.”
According to William J.Frawley “Data mining or KDD(Knowledge Discovery in Databases) as it is also known, is the nontrivial extraction of implicit, previously unknown, and potentially useful information from data.”
从技术上讲,数据挖掘是从不同的角度、维度、角度分析数据并将其分类/总结为有意义的信息的计算过程。数据挖掘可以应用于任何类型的数据,例如数据仓库、事务数据库、关系数据库、多媒体数据库、空间数据库、时间序列数据库、万维网。
数据挖掘在知识经济中提供了竞争优势。尽管有大量可用数据,但它通过提供快速做出有价值的业务决策所需的最大知识来做到这一点。
数据挖掘在不同的应用领域已经取得了许多可衡量的好处。那么,让我们讨论一下数据挖掘的不同应用:
科学分析:科学模拟每天都在产生大量数据。这包括从核实验室收集的数据、有关人类心理的数据等。 数据挖掘技术能够分析这些数据。现在,我们可以比分析已经积累的旧数据更快地捕获和存储更多新数据。科学分析示例:
- 生物信息学中的序列分析
- 天文物体的分类
- 医疗决策支持。
入侵检测:网络入侵是指数字网络上的任何未经授权的活动。网络入侵通常涉及窃取宝贵的网络资源。数据挖掘技术在搜索入侵检测、网络攻击和异常情况中起着至关重要的作用。这些技术有助于从大型数据集中选择和提炼有用的相关信息。数据挖掘技术有助于对入侵检测系统的相关数据进行分类。入侵检测系统针对系统中的外来入侵的网络流量生成警报。例如:
- 检测安全违规
- 误用检测
- 异常检测
商业交易:每个商业行业都被永久记住。此类交易通常与时间相关,可以是企业间交易或企业内操作。对于在竞争激烈的世界中挣扎求生的企业来说,在合理的时间框架内有效和及时地使用数据进行竞争决策,绝对是最重要的问题。数据挖掘有助于分析这些业务交易并确定营销方法和决策。例子 :
- 直接邮件定位
- 股票交易
- 客户细分
- 流失预测(流失预测是商业中最流行的大数据用例之一)
市场篮子分析:市场篮子分析是一种技术,可以仔细研究顾客在超市进行的购买。这个概念确定了客户频繁购买商品的模式。这种分析可以帮助促进公司的交易、报价、销售,数据挖掘技术有助于实现这一分析任务。例子:
- 数据挖掘概念用于销售和营销,以提供更好的客户服务、改善交叉销售机会、提高直邮回复率。
- 通过数据挖掘,以模式识别和预测可能的缺陷的形式保留客户是可能的。
- 风险评估和欺诈领域也使用数据挖掘概念来识别不当或异常行为等。
教育:为了分析教育部门,数据挖掘使用教育数据挖掘(EDM)方法。此方法生成可供学习者和教育者使用的模式。通过使用数据挖掘 EDM,我们可以执行一些教育任务:
- 预测学生的高等教育入学率
- 预测学生概况
- 预测学生表现
- 教师教学表现
- 课程发展
- 预测学生安置机会
研究:数据挖掘技术可以对研究领域的数据进行完美的预测、分类、聚类、关联和分组。数据挖掘生成的规则对于查找结果是唯一的。在数据挖掘的大部分技术研究中,我们创建了训练模型和测试模型。训练/测试模型是衡量所提出模型精度的一种策略。之所以称为训练/测试,是因为我们将数据集分为两组:训练数据集和测试数据集。用于设计训练模型的训练数据集,而在测试模型中使用测试数据集。例子:
- 不确定数据的分类。
- 基于信息的聚类。
- 决策支持系统
- 网络挖掘
- 领域驱动的数据挖掘
- IoT(物联网)和网络安全
- 智慧农业物联网(物联网)
医疗保健和保险:制药行业可以检查其新交易推动活动及其结果,以提高高价值医生的关注度,并确定哪些促销活动将在接下来的几个月中产生最佳效果,而保险行业,数据挖掘可以帮助预测哪些客户将购买新保单,识别风险客户的行为模式并识别客户的欺诈行为。
- 索赔分析,即哪些医疗程序一起索赔。
- 确定针对不同疾病的成功医学疗法。
- 描述患者行为以预测就诊次数。
运输:拥有大量直销人员的多元化运输公司可以应用数据挖掘来确定其服务的最佳前景。大型消费品组织可以应用信息挖掘来改善零售商的业务周期。
- 确定网点之间的分配时间表。
- 分析加载模式。
金融/银行业:信用卡公司可以利用其庞大的客户交易数据仓库来识别最有可能对新信贷产品感兴趣的客户。
- 信用卡欺诈检测。
- 识别“忠诚”客户。
- 提取与客户相关的信息。
- 确定客户群体的信用卡消费。