数据挖掘 – 数据库中的知识发现(KDD)。
为什么我们需要数据挖掘?
从商业交易、科学数据、传感器数据、图片、视频等我们可以处理的信息量每天都在增加。因此,我们需要一个能够提取可用信息的本质并可以自动生成报告的系统,
意见或数据摘要,以便更好地做出决策。
为什么在商业中使用数据挖掘?
数据挖掘在业务中用于通过以下方式做出更好的管理决策:
- 数据自动汇总
- 提取存储信息的本质。
- 发现原始数据中的模式。
数据挖掘也称为数据库中的知识发现,是指从存储在数据库中的数据中提取隐含的、以前未知的和潜在有用的信息。
KDD过程涉及的步骤:
- 数据清理:数据清理被定义为从集合中去除嘈杂和不相关的数据。
- 在缺失值的情况下进行清洁。
- 清理噪声数据,其中噪声是随机或方差错误。
- 使用数据差异检测和数据转换工具进行清理。
- 数据集成:数据集成被定义为来自多个源的异构数据组合在一个公共源(数据仓库)中。
- 使用数据迁移工具进行数据集成。
- 使用数据同步工具进行数据集成。
- 使用 ETL (提取-加载-转换)过程进行数据集成。
- 数据选择:数据选择被定义为从数据收集中决定和检索与分析相关的数据的过程。
- 使用神经网络进行数据选择。
- 使用决策树进行数据选择。
- 使用朴素贝叶斯的数据选择。
- 使用 Clustering 、 Regression等进行数据选择。
- 数据转换:数据转换被定义为将数据转换为挖掘过程所需的适当形式的过程。
数据转换是一个两步过程:
- 数据映射:将元素从源库分配到目标以捕获转换。
- 代码生成:创建实际的转换程序。
- 数据挖掘:数据挖掘被定义为用于提取可能有用的模式的巧妙技术。
- 将任务相关数据转换为模式。
- 使用分类或特征确定模型的目的。
- 模式评估:模式评估被定义为根据给定的度量确定表示知识的严格增加的模式。
- 找到每个模式的兴趣度分数。
- 使用汇总和可视化使用户可以理解数据。
- 知识表示:知识表示被定义为利用可视化工具来表示数据挖掘结果的技术。
- 生成报告。
- 生成表。
- 生成判别规则、分类规则、表征规则等。
注意:
- KDD 是一个迭代过程,其中可以增强评估措施,可以改进挖掘,可以集成和转换新数据,以获得不同且更合适的结果。
- 数据库的预处理包括数据清洗和数据集成。
参考资料:
数据挖掘:概念和技术