数据挖掘–数据库中的知识发现(KDD)。
为什么我们需要数据挖掘?
信息量每天都在增加,我们可以从业务交易,科学数据,传感器数据,图片,视频等中处理这些信息。因此,我们需要一个能够提取可用信息实质并能够自动生成报告的系统。
查看或汇总数据,以更好地进行决策。
为什么在业务中使用数据挖掘?
数据挖掘在企业中用于通过以下方式做出更好的管理决策:
- 自动汇总数据
- 提取存储信息的本质。
- 在原始数据中发现模式。
数据挖掘也称为数据库中的知识发现,是指从数据库中存储的数据中非平凡地提取隐式,以前未知且可能有用的信息。
KDD流程涉及的步骤:
- 数据清除:数据清除的定义是从收集中删除嘈杂的数据和无关的数据。
- 缺少值时进行清洁。
- 清洁嘈杂的数据,其中噪声是随机误差或方差误差。
- 使用数据差异检测和数据转换工具进行清理。
- 数据集成:数据集成定义为来自多个源的异类数据,这些数据合并在一个公共源(DataWarehouse)中。
- 使用数据迁移工具进行数据集成。
- 使用数据同步工具进行数据集成。
- 数据集成使用ETL (Extract-Load-Transformation)过程。
- 数据选择:数据选择定义为确定与分析相关的数据并从数据收集中检索的过程。
- 使用神经网络进行数据选择。
- 使用决策树进行数据选择。
- 使用朴素贝叶斯进行数据选择。
- 使用Clustering , Regression等进行数据选择
- 数据转换:数据转换定义为将数据转换为挖掘过程所需的适当形式的过程。
数据转换是一个两步过程:
- 数据映射:从源库到目标分配元素以捕获转换。
- 代码生成:创建实际的转换程序。
- 数据挖掘:数据挖掘被定义为用于提取可能有用的模式的巧妙技术。
- 将与任务相关的数据转换为模式。
- 使用分类或特征确定模型的目的。
- 模式评估:模式评估被定义为基于给定的度量来识别表示知识的严格增加的模式。
- 查找每个模式的趣味性得分。
- 使用摘要和可视化使用户可以理解数据。
- 知识表示:知识表示被定义为一种利用可视化工具表示数据挖掘结果的技术。
- 生成报告。
- 生成表。
- 生成判别规则,分类规则,表征规则等。
注意事项:
- KDD是一个迭代过程,其中可以增强评估措施,可以改进挖掘,可以集成和转换新数据以获取不同且更合适的结果。
- 数据库的预处理包括数据清理和数据集成。
参考文献:
数据挖掘:概念和技术