📜  数据挖掘中数据源的类型

📅  最后修改于: 2021-04-16 08:54:47             🧑  作者: Mango

在这篇文章中,我们将讨论在数据挖掘过程中使用哪些不同的数据源。来自多个源的数据被集成到称为数据仓库的通用源中。

让我们讨论一下可以挖掘什么类型的数据:

  1. 平面文件
    • 平面文件被定义为文本形式或二进制形式的数据文件,其结构易于被数据挖掘算法提取。
    • 平面文件中存储的数据之间没有关系或路径,就像关系数据库存储在平面文件中一样,表之间也就没有关系。
    • 平面文件由数据字典表示。例如:CSV文件。
    • 应用程序:用于DataWarehousing中存储数据,用于在服务器之间传送数据,等等。
  2. 关系数据库
    • 关系数据库定义为在具有行和列的表中组织的数据集合。
    • 关系数据库中的物理模式是定义表结构的模式。
    • 关系数据库中的逻辑模式是定义表之间关系的模式。
    • 关系数据库的标准API是SQL。
    • 应用程序:数据挖掘,ROLAP模型等
  3. 数据仓库
    • 数据仓库定义为从多个来源集成的数据集合,这些数据将进行查询和决策。
    • 数据仓库有三种类型:企业数据仓库,数据集市虚拟仓库。
    • 可以使用两种方法来更新DataWarehouse中的数据:查询驱动方法和更新驱动方法。
    • 应用程序:业务决策,数据挖掘等
  4. 交易数据库
    • 事务性数据库是按时间戳,日期等组织的数据集合,以表示数据库中的事务。
    • 当事务未完成或提交时,这种类型的数据库具有回滚或撤消其操作的能力。
    • 高度灵活的系统,用户可以在不更改任何敏感信息的情况下修改信息。
    • 遵循DBMS的ACID属性。
    • 应用程序:银行,分布式系统,对象数据库等。
  5. 多媒体资料库
    • 多媒体数据库包括音频,视频,图像和文本媒体。
    • 它们可以存储在面向对象的数据库中。
    • 它们用于以预先指定的格式存储复杂的信息。
    • 应用程序:数字图书馆,视频点播,新闻点播,音乐数据库等
  6. 空间数据库
    • 存储地理信息。
    • 以坐标,拓扑,线,多边形等形式存储数据。
    • 应用程序:地图,全球定位等
  7. 时间序列数据库
    • 时间序列数据库包含证券交易所数据和用户记录的活动。
    • 处理按时间,日期等索引的数字数组。
    • 它需要实时分析。
    • 应用程序:eXtremeDB,Graphite,InfluxDB等
  8. 万维网
    • WWW是指万维网,是音频和视频,文本等文件和资源的集合,这些文件和资源由统一资源定位器(URL)通过Web浏览器标识,由HTML页面链接并可以通过Internet网络访问。
    • 它是最异构的存储库,因为它从多种资源中收集数据。
    • 它本质上是动态的,因为数据量在不断增加和变化。
    • 应用程序:在线购物,求职,研究,学习等