📜  数据仓库的属性

📅  最后修改于: 2021-09-08 16:03:21             🧑  作者: Mango

数据仓库仅用于查询和分析,而不用于事务处理。数据仓库本质上是面向主题的、非易失性的、集成的、随时间变化的,并且由长期存储的历史数据组成。 BI 和数据挖掘算法的蓝图。

数据集市:
数据集市是附属数据仓库,更多地属于 OLTP,具有瞬态数据、规范化表、执行事务、不能对数据进行切片或切块或汇总或向下钻取等。

空间数据库:
空间数据库源自地理空间联盟,用于将 3D 几何形状绘制或描述为正多边形,可以添加或修改现有的 3D 几何形状,具有观察者参考,并天生具有 HH 代码和 Z 顺序等 3D 空间索引。

文本数据库:
文本数据库以文本文件和 Word 文档形式提供,并响应 Ad Hoc 查询。

Nominal / Ordinal / Interval / Ratio 属性:

  1. 名义属性——
    数据的顺序并不重要,但重要的是数据间隔的差异。
    例如:一个国家的邮政编码等。
  2. 序数属性 –
    数据的顺序很重要,但不重要的是数据间隔的差异,例如社会经济地位。
  3. 间隔属性——
    重要的是数据的顺序和数据间隔的差异。
  4. 比率属性 –
    重要的是数据的顺序、数据间隔的差异,0.0 代表没有或没有数据项,例如酶、浓度、开尔文温度。

数据仓库的组成部分:

  1. 集中式数据库。
  2. 元数据。
  3. 查询和优化工具。
  4. ETL。
  5. 数据仓库总线架构。
  6. 数据集市。

决策树 :
决策树是一种基于数据挖掘算法的数据挖掘算法,采用自上而下的设计,并使用 ID3 算法找到数据项的同质性,熵测量数据项同质的数量,对于完全同质的数据项,熵为 0 和其中数据项在属性中拆分,熵是 1。我们可以从频率表中找到熵,可以考虑单个频率表的一个属性,也可以考虑频率表的 2 个或多个属性。

人工神经网络:
人工神经网络或 ANN 是基于 AI 和机器学习的模拟模型,可模拟目标神经细胞和互连突触通道。前馈人工神经网络,其中没有反馈回路,存在单层或多层;循环人工神经网络,出现反馈回路,存在单层或多层。

离散和连续属性:
离散属性是统计的,连续属性是定性的度量。离散属性不重叠,相互包含,两个极限值都出现,连续属性重叠,互斥,只出现一个极限值。离散属性用孤立点表示,连续属性用图上的连接点表示。