📜  数据挖掘中数据源的类型

📅  最后修改于: 2021-10-19 06:25:50             🧑  作者: Mango

在这篇文章中,我们将讨论数据挖掘过程中使用的不同数据源。来自多个源的数据被集成到一个称为数据仓库的公共源中。

让我们讨论可以挖掘哪些类型的数据:

  1. 平面文件
    • 平面文件被定义为文本形式或二进制形式的数据文件,其结构可以通过数据挖掘算法轻松提取。
    • 存储在平面文件中的数据之间没有关系或路径,就像关系数据库存储在平面文件中一样,表之间就没有关系。
    • 平面文件由数据字典表示。例如:CSV 文件。
    • 应用:用于DataWarehousing中存储数据,用于与服务器之间传输数据等。
  2. 关系数据库
    • 关系数据库被定义为组织在具有行和列的表中的数据集合。
    • 关系数据库中的物理模式是定义表结构的模式。
    • 关系数据库中的逻辑模式是定义表之间关系的模式。
    • 关系数据库的标准 API 是 SQL。
    • 应用:数据挖掘、ROLAP模型等。
  3. 数据仓库
    • 数据仓库被定义为从多个来源集成的数据集合,用于查询和决策。
    • 数据仓库分为三种类型:企业数据仓库、数据集市虚拟仓库。
    • 可以使用两种方法来更新 DataWarehouse 中的数据:查询驱动方法和更新驱动方法。
    • 应用:商业决策、数据挖掘等。
  4. 事务数据库
    • 事务数据库是按时间戳、日期等组织的数据集合,用于表示数据库中的事务。
    • 这种类型的数据库能够在事务未完成或未提交时回滚或撤消其操作。
    • 高度灵活的系统,用户可以在不更改任何敏感信息的情况下修改信息。
    • 遵循 DBMS 的 ACID 属性。
    • 应用:银行、分布式系统、对象数据库等。
  5. 多媒体数据库
    • 多媒体数据库包括音频、视频、图像和文本媒体。
    • 它们可以存储在面向对象的数据库中。
    • 它们用于以预先指定的格式存储复杂信息。
    • 应用:数字图书馆、视频点播、新闻点播、音乐数据库等。
  6. 空间数据库
    • 存储地理信息。
    • 以坐标、拓扑、线、多边形等形式存储数据。
    • 应用:地图、全球定位等。
  7. 时间序列数据库
    • 时间序列数据库包含证券交易所数据和用户记录的活动。
    • 处理按时间、日期等索引的数字数组。
    • 它需要实时分析。
    • 应用:eXtremeDB、Graphite、InfluxDB 等。
  8. 万维网
    • WWW 是指万维网,是音频、视频、文本等文档和资源的集合,这些文档和资源通过 Web 浏览器由统一资源定位符 (URL) 标识,由 HTML 页面链接,并可通过 Internet 网络访问。
    • 它是最异构的存储库,因为它从多个资源收集数据。
    • 它本质上是动态的,因为数据量不断增加和变化。
    • 应用:网上购物、求职、研究、学习等。