什么是数据挖掘趋势和研究前沿?
数据挖掘是分析大量信息以找出模式和趋势的过程。它可以帮助企业了解客户的选择,与客户建立良好的关系,增加收入,降低风险。数据挖掘基于复杂的算法,允许数据分割以发现大量趋势和模式、检测偏差并估计某些事件发生的可能性。原始数据可以是模拟和数字格式,它本质上取决于数据的来源。公司必须跟上最新的数据挖掘趋势并与时俱进,才能在行业中取得成功并击败竞争对手。
数据挖掘中的挖掘序列类型:
- 挖掘时间序列
- 挖掘符号序列
- 挖掘生物序列
1. 挖掘时间序列
在特定时间记录指定数量的数据点或在挖掘时间序列中通过重复测量时间获得的事件。这些值或数据通常以相等的时间间隔测量,例如每小时、每周、每天。在时间序列数据中也记录有规律的间隔或特征时间序列成分是趋势、季节、周期、不规则。
时间序列的应用:
- 金融:股市分析
- 行业:功耗
- 科学:实验结果
- 气象:降水
时间序列分析方法:
- 趋势分析:时间序列运动的类别:
- 长期或趋势运动:时间序列在很长一段时间内移动的一般方向。
- 周期性运动:围绕趋势线或曲线的长期振荡。
- 季节性变动:在随后几年的相应月份中,时间序列似乎遵循基本相同的模式。
- 不规则或随机运动:由于计划外事件而随机发生的变化。
- 相似性搜索:
- 数据缩减
- 索引方法
- 相似性搜索方法
- 查询语言
2.挖掘符号序列
符号序列由有序的元素列表组成,可以在有或没有时间感的情况下进行记录。该序列可以以多种方式使用,包括消费者购物序列、网络点击流、软件执行序列、生物序列等。
序列模式的挖掘需要识别一个或多个序列中频繁出现的子序列。作为该领域大量研究的结果,已经开发了许多可扩展的算法。或者,我们只能挖掘封闭序列模式的集合,其中如果序列模式 s 是 s' 的正确子序列并且 s' 具有与 s 相同的支持,则它是封闭的。
例如:
如果其中 a、b、c、d 和 e 是项目,则 S 是 S' 的子序列。
3. 挖掘生物序列
生物序列由核苷酸或氨基酸序列组成。在生物信息学和现代生物学中,生物序列分析比较、对齐、索引和分析生物序列。生物序列分析在生物信息学和现代生物学中起着至关重要的作用。这种分析可以分为两个任务——成对序列比对和多序列比对。
生物序列方法:
- 生物序列的比对:
- 成对对齐
- BLAST 局部对齐算法
- 多序列比对方法
- 使用隐马尔可夫模型的生物序列分析:
- 马尔可夫链
- 隐马尔可夫模型
- 前向算法
- 维特比算法
- 鲍姆-韦尔奇算法
数据挖掘的应用:
- 财务信息分析:
- 贷款支付预测/消费信贷政策分析
- 信息仓库的设计与建设
- 在银行和金融机构区域单位收集的财务信息通常比较完整、可靠且质量上乘。
- 零售业:
- 多维分析(销售、客户、产品、时间等)
- 销售活动分析
- 客户保留
- 产品推荐
- 使用可视化工具进行数据分析
- 科学与工程:
- 数据处理和数据仓库
- 挖掘复杂数据类型
- 基于网络的挖掘
- 基于图的挖掘
数据挖掘趋势:
- 应用探索:解决应用特定的问题
- 可扩展和交互的数据挖掘方法
- 数据挖掘与 Web 搜索引擎、数据库系统、数据仓库系统和云计算系统的集成
- 挖掘社交和信息网络
- 挖掘时空、移动物体和网络物理系统
- 挖掘多媒体、文本和网络数据
- 挖掘生物和生物医学数据
- 视听数据挖掘
- 分布式数据挖掘和实时数据流挖掘。