数据仓库仅用于查询和分析,而不用于事务处理。数据仓库本质上是面向主题的,非易失性的,集成的,随时间变化的,并且由长时间存储的历史数据组成。 BI和数据挖掘算法的蓝图。
数据集市:
数据集市是辅助数据仓库,并且是OLTP系列中的更多数据仓库,具有临时数据,规范化表,执行事务,无法切片或切块数据或汇总或下钻等。
空间数据库:
空间数据库源自地理空间联盟,用于将3D几何形状绘制或描述为规则多边形,可以添加或修改现有3D几何形状,具有观察者参考,并固有地具有3D空间索引(例如HH代码和Z顺序)。
文字数据库:
文本数据库可在文本文件和Word文档中使用,并可以响应临时查询。
标称/有序/间隔/比率属性:
- 标称属性–
尽管重要的是数据间隔的差异,但是数据顺序并不重要。
例如:国家/地区的邮政编码等。 - 序数属性–
数据的顺序很重要,但不重要的是数据间隔的差异,例如社会经济状况。 - 间隔属性–
重要的是数据的顺序和数据间隔的差异。 - 比率属性–
重要的是数据的顺序,数据间隔的差异以及0.0(代表无数据项或无数据项,例如酶,浓度,开氏温度)。
数据仓库的组成部分:
- 集中式数据库。
- 元数据。
- 查询和优化工具。
- ETL。
- 数据仓库总线体系结构。
- 数据集市。
决策树 :
决策树是一种基于数据挖掘的算法,使用自顶向下的设计,并使用ID3算法来发现数据项的同质性,并使用熵来度量数据项的均质性,对于完全均质的数据项,熵为0,其中数据项在属性熵中拆分的熵为1。我们可以从频率表中找到熵,可以考虑单个频率表的一个属性或频率表的2个或多个属性。
人工神经网络
人工神经网络(ANN)是基于AI和机器学习的仿真模型,可以模拟目标神经细胞和相互连接的突触通道。前馈ANN缺少反馈回路并且存在单层或多层,而递归ANN则存在反馈回路并且存在单层或多层。
离散和连续属性:
离散属性是统计性的,连续属性是定性的度量。离散属性是不重叠的,相互包含的,两个极限值都会出现,而连续属性是重叠的,相互排斥的,只有一个极限值出现。离散属性以孤立点表示,连续属性以图形上的连接点表示。