📜  数据挖掘教程

📅  最后修改于: 2020-12-21 09:43:22             🧑  作者: Mango

数据挖掘教程

数据挖掘教程提供了数据挖掘的基本概念和高级概念。我们的数据挖掘教程专为学习者和专家而设计。

数据挖掘是帮助企业家,研究人员和个人从大量数据中提取有价值的信息的最有用的技术之一。数据挖掘也称为数据库中的知识发现(KDD) 。知识发现过程包括数据清理,数据集成,数据选择,数据转换,数据挖掘,模式评估和知识表示。

我们的数据挖掘教程包括数据挖掘的所有主题,例如应用程序,数据挖掘与机器学习,数据挖掘工具,社交媒体数据挖掘,数据挖掘技术,数据挖掘中的集群,数据挖掘中的挑战等。

什么是数据挖掘?

提取信息以识别模式,趋势和有用数据的过程称为数据挖掘,该过程将使企业能够从大量数据集中做出由数据驱动的决策。

换句话说,我们可以说数据挖掘是从各种角度调查信息的隐藏模式以将其分类为有用数据的过程,这些有用数据是在特定区域收集和组装的,例如数据仓库,高效分析,数据挖掘算法,帮助决策制造和其他数据要求,以最终削减成本并产生收入。

数据挖掘是自动搜索大量信息以查找超出简单分析过程范围的趋势和模式的行为。数据挖掘将复杂的数学算法用于数据段,并评估未来事件的可能性。数据挖掘也称为数据知识发现(KDD)。

数据挖掘是组织用于从大型数据库中提取特定数据以解决业务问题的过程。它主要将原始数据转化为有用的信息。

数据挖掘类似于人在特定情况下针对特定数据集以目标进行的数据科学。此过程包括各种类型的服务,例如文本挖掘,Web挖掘,音频和视频挖掘,图片数据挖掘和社交媒体挖掘。它是通过简单或高度特定的软件完成的。通过外包数据挖掘,可以以较低的运营成本更快地完成所有工作。专业公司还可以使用新技术来收集无法手动定位的数据。在各种平台上都有大量信息可用,但是很少获得知识。最大的挑战是分析数据以提取可用于解决问题或用于公司发展的重要信息。有许多强大的工具和技术可用于挖掘数据并从中找到更好的见解。

数据挖掘的类型

可以对以下类型的数据执行数据挖掘:

关系型数据库:

关系数据库是由表,记录和列正式组织的多个数据集的集合,可以用多种方式从中访问数据,而不必识别数据库表。表传达和共享信息,从而促进数据的可搜索性,报告和组织。

数据仓库:

数据仓库是一种从组织内的各种来源收集数据以提供有意义的业务见解的技术。大量数据来自诸如营销和金融等多个地方。提取的数据用于分析目的,并有助于业务组织的决策。数据仓库设计用于数据分析而不是事务处理。

资料储存库:

数据存储库通常是指数据存储的目的地。但是,许多IT专业人员更清楚地使用该术语来指代IT结构中的特定类型的设置。例如,一组数据库,其中组织保留了各种信息。

对象关系数据库:

面向对象的数据库模型和关系数据库模型的组合称为对象关系模型。它支持类,对象,继承等。

对象关系数据模型的主要目标之一是缩小关系数据库和许多编程语言(例如C++,Java,C#等)中经常使用的面向对象模型实践之间的差距。

交易数据库:

事务数据库是指数据库管理系统(DBMS),如果执行不当,则有可能撤消数据库事务。尽管这是很久以前的独特功能,但今天,大多数关系数据库系统都支持事务数据库活动。

数据挖掘的优势

  • 数据挖掘技术使组织能够获取基于知识的数据。
  • 数据挖掘使组织能够在运营和生产中进行有利可图的修改。
  • 与其他统计数据应用程序相比,数据挖掘具有成本效益。
  • 数据挖掘有助于组织的决策过程。
  • 它促进了隐藏模式的自动发现以及趋势和行为的预测。
  • 它可以在新系统和现有平台中引入。
  • 这是一个快速的过程,使新用户可以轻松地在短时间内分析大量数据。

数据挖掘的缺点

  • 组织可能会以金钱将客户的有用数据卖给其他组织。根据该报告,美国运通已将其客户的信用卡购买交易出售给其他组织。
  • 许多数据挖掘分析软件难以操作,需要进行高级培训才能使用。
  • 由于设计中使用的算法不同,因此不同的数据挖掘工具以不同的方式运行。因此,选择正确的数据挖掘工具是一项非常具有挑战性的任务。
  • 数据挖掘技术不够精确,因此在某些情况下可能会导致严重的后果。

数据挖掘应用

数据挖掘主要供具有强烈消费者需求的组织(零售,通信,金融,营销公司)使用,以确定价格,消费者偏好,产品定位以及对销售,客户满意度和企业利润的影响。数据挖掘使零售商可以使用客户购买的销售记录来开发产品和促销活动,以帮助组织吸引客户。

这些是以下广泛使用数据挖掘的领域:

医疗保健中的数据挖掘:

医疗保健中的数据挖掘在改善医疗系统方面具有巨大潜力。它使用数据和分析来获得更好的见解,并确定可增强医疗保健服务并降低成本的最佳实践。分析师使用数据挖掘方法,例如机器学习,多维数据库,数据可视化,软计算和统计。数据挖掘可用于预测每个类别的患者。该程序可确保患者在正确的位置和正确的时间接受重症监护。数据挖掘还使医疗保险公司能够识别欺诈和滥用行为。

市场篮子分析中的数据挖掘:

市场篮子分析是一种基于假设的建模方法。如果您购买特定的一组产品,那么您更有可能购买另一组产品。该技术可以使零售商理解买方的购买行为。该数据可以帮助零售商理解购买者的要求并相应地改变商店的布局。使用不同商店之间结果的不同分析比较,可以完成不同人口统计群体中的客户之间的比较。

教育中的数据挖掘:

教育数据挖掘是一个新兴领域,涉及开发从教育环境生成的数据中探索知识的开发技术。 EDM目标被确认为肯定学生未来的学习行为,研究教育支持的影响并促进学习科学。组织可以使用数据挖掘来做出精确的决策,也可以预测学生的学习结果。有了结果,该机构可以集中精力教什么以及如何教。

制造工程中的数据挖掘:

知识是制造公司拥有的最好的资产。数据挖掘工具可能有助于在复杂的制造过程中找到模式。数据挖掘可用于系统级设计中,以获取产品架构,产品组合和客户数据需求之间的关系。它还可以用于预测产品开发周期,成本和其他任务中的期望。

CRM(客户关系管理)中的数据挖掘:

客户关系管理(CRM)不仅涉及获得和保持客户,还增强了客户忠诚度并实施了以客户为导向的策略。为了与客户建立良好的关系,业务组织需要收集数据并分析数据。借助数据挖掘技术,收集的数据可用于分析。

欺诈检测中的数据挖掘:

欺诈行为损失了数十亿美元。传统的欺诈检测方法有点耗时且复杂。数据挖掘提供了有意义的模式,并将数据转化为信息。理想的欺诈检测系统应保护所有用户的数据。受监督的方法由样本记录的集合组成,这些记录被分类为欺诈性或非欺诈性。使用此数据构建模型,并进行识别该文件是否为欺诈文件的技术。

谎言检测中的数据挖掘:

抓捕罪犯不是什么大问题,但要从他身上弄清真相是一项非常艰巨的任务。执法部门可以使用数据挖掘技术来调查犯罪行为,监视可疑的恐怖主义通信等。该技术还包括文本挖掘,它会在数据中寻找有意义的模式,通常是非结构化的文本。比较从以前的调查中收集的信息,并构建一个测谎模型。

数据挖掘金融银行:

银行系统的数字化应该在每次新交易中产生大量数据。数据挖掘技术可以通过识别趋势,人员伤亡以及商业信息与市场成本之间的相关性,从而解决银行和金融业中与业务相关的问题,从而帮助银行家,这些趋势,管理人员或高管并不能立即发现这些趋势是由于数据量太大或产生的专家在屏幕上显示的速度太快。经理可以找到这些数据,以更好地确定目标,获取,保留,细分和维持可盈利的客户。

数据挖掘中实施的挑战

尽管数据挖掘功能非常强大,但在执行过程中仍面临许多挑战。各种挑战都可能与性能,数据,方法和技术等相关。当正确认识到并充分解决挑战或问题后,数据挖掘过程就会变得有效。

数据不完整且嘈杂:

从大量数据中提取有用数据的过程就是数据挖掘。现实世界中的数据是异构的,不完整的和嘈杂的。大量数据通常将不准确或不可靠。这些问题可能是由于数据测量仪器或人为错误引起的。假设一家零售连锁店收集了花费超过500美元的客户的电话号码,而会计人员则将信息输入到他们的系统中。输入电话号码时,该人可能会输入数字错误,从而导致数据不正确。甚至有些客户可能也不愿透露他们的电话号码,从而导致数据不完整。由于人为或系统错误,数据可能会更改。所有这些后果(嘈杂的数据和不完整的数据)使数据挖掘具有挑战性。

数据分配:

实际数据通常存储在分布式计算环境中的各种平台上。它可能在数据库,单个系统中,甚至在Internet中。实际上,主要是出于组织和技术方面的考虑,将所有数据制作到集中式数据库中是一项艰巨的任务。例如,各个地区办事处可能都有其服务器来存储其数据。将来自所有办公室的所有数据存储在中央服务器上是不可行的。因此,数据挖掘要求开发允许挖掘分布式数据的工具和算法。

复杂数据:

现实世界的数据是异构的,它可以是多媒体数据,包括音频和视频,图像,复杂数据,空间数据,时间序列等。管理这些各种类型的数据并提取有用的信息是一项艰巨的任务。在大多数情况下,必须改进新技术,新工具和方法以获取特定信息。

性能:

数据挖掘系统的性能主要取决于所使用算法和技术的效率。如果设计的算法和技术达不到要求,那么数据挖掘过程的效率将受到不利影响。

数据隐私和安全性:

数据挖掘通常会在数据安全性,治理和隐私方面导致严重的问题。例如,如果零售商分析了所购买商品的详细信息,那么它会泄露有关顾客的购买习惯和偏好的数据。

数据可视化:

在数据挖掘中,数据可视化是一个非常重要的过程,因为它是一种以可展示的方式向用户显示输出的主要方法。提取的数据应传达其打算表达的确切含义。但是很多时候,很难以一种精确而又容易的方式将信息呈现给最终用户。输入数据和输出信息是复杂,高效且成功的数据可视化过程,需要加以实现才能使其成功。

除了上述问题之外,数据挖掘还面临更多挑战。随着实际数据挖掘过程的开始,更多的问题被披露出来,而数据挖掘的成功取决于摆脱所有这些困难。

先决条件

在学习数据挖掘的概念之前,您应该对统计,数据库知识和基本编程语言有基本的了解。

听众

我们的数据挖掘教程是为所有初学者或计算机科学专业的毕业生准备的,以帮助他们学习与数据挖掘相关的高级技术的基础。

问题

我们向您保证,在学习我们的数据挖掘教程时不会遇到任何困难。但是,如果本教程中有任何错误,请将问题或错误张贴在联系表中,以便我们进行改进。