数据挖掘中的复杂数据类型
复杂数据类型需要高级数据挖掘技术。一些复杂数据类型是序列数据,包括时间序列、符号序列和生物序列。这些复杂数据类型的数据挖掘需要额外的预处理步骤。
1.时间序列数据挖掘:
在时间序列数据中,数据以每分钟、每小时或每天相等的时间间隔作为数字或文本数据的长序列进行测量。时间序列数据挖掘是对从股票市场、科学数据和医学数据中获得的数据进行的。在时间序列挖掘中,不可能找到与给定查询完全匹配的数据。我们采用相似性搜索方法来查找与给定查询字符串相似的数据序列。在相似度搜索方法中,执行子序列匹配以找到与给定查询字符串相似的子序列。为了进行相似性搜索,对复杂数据进行降维,将时间序列数据转换为数值数据。
2. 符号序列中的序列模式挖掘:
符号序列由长的标称数据序列组成,它们随着时间间隔动态地改变它们的行为。符号序列的示例包括在线客户购物序列以及实验事件序列。符号序列的挖掘称为顺序挖掘。顺序模式是在一组序列中更频繁地存在的子序列。因此它在一组序列中找到最频繁的子序列来执行挖掘。已经建立了许多可扩展的算法来找出频繁子序列。还有一些算法可以挖掘多维和多级顺序模式。
3、生物序列数据挖掘:
生物序列是核苷酸的长序列,需要对生物序列进行数据挖掘以发现人类 DNA 的特征。生物序列分析是数据挖掘的第一步,用于比较生物序列的比对。只有当它们的核苷酸(DNA、RNA)和蛋白质序列接近且相似时,两个物种才彼此相似。在生物序列的数据挖掘过程中,测量核苷酸序列之间的相似程度。通过核苷酸的序列比对获得的相似程度对于确定两个序列之间的同源性至关重要。
通过识别具有长子序列的相似序列,可能会出现两个或多个输入生物序列的比对情况。也被称为蛋白质序列的氨基酸也被比较和比对。
4. 图形模式挖掘:
图形模式挖掘可以通过使用基于 Apriori 和基于模式增长的方法来完成。我们可以挖掘图的子图和封闭图的集合。封闭图 g 是没有与 g 具有相同支持计数的超级图的图。图模式挖掘应用于不同类型的图,例如频繁图、连贯图和密集图。我们还可以通过对图形模式应用用户约束来提高挖掘效率。图形模式有两种类型。同构图,其中图的节点或链接具有相似的特征,属于同一类型。在异构图形模式中,节点和链接属于不同类型。
5. 网络的统计建模:
网络是节点的集合,其中每个节点代表数据,节点通过边链接,代表数据对象之间的关系。如果所有节点和连接节点的链接都是同一类型的,则网络是同质的,例如朋友网络或网页网络。如果节点和连接节点的链路是不同类型的,则网络是异构的,例如医疗保健网络(将网络中的医生、护士、患者、疾病等不同参数链接在一起)。图模式挖掘可以进一步应用于网络,以从网络中获取知识和有用的模式。
6.挖掘空间数据:
空间数据是存储在大型数据库中的与地理空间相关的数据。空间数据以“矢量”格式和地理参考多媒体格式表示。空间数据库是由大型地理数据仓库通过整合多源区域的地理数据构建而成的。我们可以构建包含空间维度和度量信息的空间数据立方体。可以对空间数据执行 OLAP 操作以进行空间数据分析。空间数据挖掘是在空间数据仓库、空间数据库和其他地理空间数据存储库上执行的。空间数据挖掘发现有关地理区域的知识。空间数据的预处理涉及空间数据中的空间聚类、空间分类、空间建模和异常值检测等操作。
7. 挖掘网络物理系统数据:
网络物理系统数据可以通过构建数据图或网络来挖掘。信息物理系统 (CPS) 是一个异构网络,由大量互连的节点组成,这些节点存储患者或医疗信息。 CPS 网络中的链接代表节点之间的关系。网络物理系统存储包含时空信息的动态、不一致和相互依赖的数据。挖掘信息物理数据将情况作为查询链接,以访问大型信息数据库中的数据,并涉及实时计算和分析,以促使 CPS 系统做出响应。 CPS 分析需要在信息物理数据流、信息物理网络中进行罕见事件检测和异常分析,并且信息物理数据的处理涉及流数据与实时自动控制过程的集成。
8.挖掘多媒体数据:
多媒体数据对象包括图像数据、视频数据、音频数据、网站超链接和链接。多媒体数据挖掘试图从多媒体数据库中找出有趣的模式。这包括处理数字数据并执行图像处理、图像分类、视频和音频数据挖掘以及模式识别等任务。多媒体数据挖掘正在成为最有趣的研究领域,因为大多数社交媒体平台,如 Twitter、Facebook 数据都可以通过它进行分析,并得出有趣的趋势和模式。
9. 挖掘网络数据:
Web 挖掘对于从 Web 中发现关键模式和知识至关重要。网页内容挖掘分析多个网站的数据,包括网页和网页中的图像等多媒体数据。网络挖掘是为了了解网页的内容、网站的唯一用户、唯一的超文本链接、网页相关性和排名、网页内容摘要、用户在特定网站上花费的时间以及了解用户搜索模式。网络挖掘还找出最好的搜索引擎并确定它使用的搜索算法。因此它有助于提高搜索效率并为用户找到最佳的搜索引擎。
10. 挖掘文本数据:
文本挖掘是数据挖掘、机器学习、自然语言处理和统计的子领域。我们日常生活中的大部分信息都是以文本形式存储的,例如新闻文章、技术论文、书籍、电子邮件、博客。文本挖掘帮助我们从文本中检索到高质量的信息,例如情感分析、文档摘要、文本分类、文本聚类。我们应用机器学习模型和 NLP 技术从文本中获取有用的信息。这是通过统计模式学习和统计语言建模等手段找出隐藏的模式和趋势来完成的。为了执行文本挖掘,我们需要通过应用词干提取和词形还原技术对文本进行预处理,以便将文本数据转换为数据向量。
11.挖掘时空数据:
与空间和时间都相关的数据是时空数据。时空数据挖掘从时空数据中检索有趣的模式和知识。时空数据挖掘帮助我们找到土地的价值、岩石和宝石的年龄、预测天气模式。时空数据挖掘具有许多实际应用,例如手机中的 GPS、计时器、基于 Internet 的地图服务、天气服务、卫星、RFID、传感器。
12. 挖掘数据流:
流数据是可以动态变化的数据,它包含不同数据类型的多维特征,具有噪声、不一致的特点。所以这些数据存储在 NoSql 数据库系统中。流数据量非常大,这对流数据的有效挖掘提出了挑战。在挖掘数据流时,我们需要执行诸如聚类、异常值分析和数据流中罕见事件的在线检测等任务。