📜  数据挖掘-主题

📅  最后修改于: 2021-01-11 06:35:02             🧑  作者: Mango


数据挖掘的理论基础

数据挖掘的理论基础包括以下概念-

  • 数据精简-该理论的基本思想是减少数据表示形式,该数据表示形式是为了响应对大型数据库中查询的快速近似答案的需求而以准确性为代价。一些数据缩减技术如下-

    • 奇异值分解

    • 小波

    • 回归

    • 对数线性模型

    • 直方图

    • 聚类

    • 采样

    • 索引树的构建

  • 数据压缩-该理论的基本思想是通过以下方面的编码来压缩给定数据-

    • 关联规则

    • 决策树

    • 集群

  • 模式发现-该理论的基本思想是发现数据库中发生的模式。以下是对该理论做出贡献的领域-

    • 机器学习

    • 神经网络

    • 协会挖掘

    • 顺序模式匹配

    • 聚类

  • 概率论-该理论基于统计理论。该理论背后的基本思想是发现随机变量的联合概率分布。

  • 概率理论-根据该理论,数据挖掘发现的模式只有在可以用于某些企业的决策过程中才有意义。

  • 微观经济学观点-根据该理论,数据库模式由存储在数据库中的数据和模式组成。因此,数据挖掘是对数据库执行归纳的任务。

  • 归纳数据库-除了面向数据库的技术外,还有统计技术可用于数据分析。这些技术也可以应用于科学数据以及来自经济和社会科学的数据。

统计数据挖掘

一些统计数据挖掘技术如下-

  • 回归-回归方法用于从一个或多个变量为数字的预测变量中预测响应变量的值。下面列出了回归的形式-

    • 线性的

    • 加权的

    • 多项式

    • 非参数

    • 强大的

  • 广义线性模型-广义线性模型包括-

    • 逻辑回归

    • 泊松回归

    该模型的泛化允许分类响应变量以类似于使用线性回归对数字响应变量建模的方式与一组预测变量相关。

  • 方差分析-此技术分析-

    • 由数字响应变量描述的两个或多个总体的实验数据。

    • 一个或多个分类变量(因子)。

  • 混合效果模型-这些模型用于分析分组数据。这些模型描述了根据一个或多个因素分组的数据中响应变量与某些协变量之间的关系。

  • 因子分析-因子分析用于预测分类响应变量。此方法假定自变量遵循多元正态分布。

  • 时间序列分析-以下是分析时间序列数据的方法-

    • 自回归方法。

    • 单变量ARIMA(自回归综合移动平均值)建模。

    • 长记忆时间序列建模。

可视数据挖掘

可视数据挖掘使用数据和/或知识可视化技术从大型数据集中发现隐式知识。可视数据挖掘可以被视为以下学科的整合-

  • 数据可视化

  • 数据挖掘

可视数据挖掘与以下内容密切相关-

  • 电脑图像

  • 多媒体系统

  • 人机交互

  • 模式识别

  • 高性能计算

通常,可以通过以下方式集成数据可视化和数据挖掘-

  • 数据可视化-数据库或数据仓库中的数据可以下列几种可视形式查看-

    • 箱线图

    • 3D立方体

    • 数据分布图

    • 曲线

    • 表面

    • 链接图等

  • 数据挖掘结果可视化-数据挖掘结果可视化以可视形式表示数据挖掘结果。这些视觉形式可能是散点图,箱线图等。

  • 数据挖掘过程可视化-数据挖掘过程可视化介绍了数据挖掘的几个过程。它允许用户查看如何提取数据。它还允许用户查看从哪个数据库或数据仓库中清理,集成,预处理和挖掘数据。

音频数据挖掘

音频数据挖掘利用音频信号来指示数据模式或数据挖掘结果的特征。通过将模式转换为声音和沉思,我们可以听音高和乐曲,而不是观看图片,从而识别出任何有趣的东西。

数据挖掘和协同过滤

今天的消费者在购物时会遇到各种各样的商品和服务。在实时客户交易期间,推荐系统通过提出产品推荐来帮助消费者。协作过滤方法通常用于向客户推荐产品。这些建议基于其他客户的意见。