在这篇文章中,我们将讨论数据挖掘过程中使用的不同数据源。来自多个源的数据被集成到一个称为数据仓库的公共源中。
让我们讨论可以挖掘哪些类型的数据:
- Flat Files
- Relational Databases
- DataWarehouse
- Transactional Databases
- Multimedia Databases
- Spatial Databases
- Time Series Databases
- World Wide Web(WWW)
- 平面文件
- 平面文件被定义为文本形式或二进制形式的数据文件,其结构可以通过数据挖掘算法轻松提取。
- 存储在平面文件中的数据之间没有关系或路径,就像关系数据库存储在平面文件中一样,表之间就没有关系。
- 平面文件由数据字典表示。例如:CSV 文件。
- 应用:用于DataWarehousing中存储数据,用于与服务器之间传输数据等。
- 关系数据库
- 关系数据库被定义为组织在具有行和列的表中的数据集合。
- 关系数据库中的物理模式是定义表结构的模式。
- 关系数据库中的逻辑模式是定义表之间关系的模式。
- 关系数据库的标准 API 是 SQL。
- 应用:数据挖掘、ROLAP模型等。
- 数据仓库
- 数据仓库被定义为从多个来源集成的数据集合,用于查询和决策。
- 数据仓库分为三种类型:企业数据仓库、数据集市和虚拟仓库。
- 可以使用两种方法来更新 DataWarehouse 中的数据:查询驱动方法和更新驱动方法。
- 应用:商业决策、数据挖掘等。
- 事务数据库
- 事务数据库是按时间戳、日期等组织的数据集合,用于表示数据库中的事务。
- 这种类型的数据库能够在事务未完成或未提交时回滚或撤消其操作。
- 高度灵活的系统,用户可以在不更改任何敏感信息的情况下修改信息。
- 遵循 DBMS 的 ACID 属性。
- 应用:银行、分布式系统、对象数据库等。
- 多媒体数据库
- 多媒体数据库包括音频、视频、图像和文本媒体。
- 它们可以存储在面向对象的数据库中。
- 它们用于以预先指定的格式存储复杂信息。
- 应用:数字图书馆、视频点播、新闻点播、音乐数据库等。
- 空间数据库
- 存储地理信息。
- 以坐标、拓扑、线、多边形等形式存储数据。
- 应用:地图、全球定位等。
- 时间序列数据库
- 时间序列数据库包含证券交易所数据和用户记录的活动。
- 处理按时间、日期等索引的数字数组。
- 它需要实时分析。
- 应用:eXtremeDB、Graphite、InfluxDB 等。
- 万维网
- WWW 是指万维网,是音频、视频、文本等文档和资源的集合,这些文档和资源通过 Web 浏览器由统一资源定位符 (URL) 识别,由 HTML 页面链接,并可通过 Internet 网络访问。
- 它是最异构的存储库,因为它从多个资源收集数据。
- 它本质上是动态的,因为数据量不断增加和变化。
- 应用:网上购物、求职、研究、学习等。