📅  最后修改于: 2020-11-07 03:22:03             🧑  作者: Mango
什么是红移?
- Redshift是一种快速而强大的,完全托管的,PB级的数据仓库服务,位于云中。
- 客户可以以每小时0.25美元的价格使用Redshift,而无需承担任何承诺或前期费用,并且可以以每年每TB 1000美元的价格扩展到PB或更多。
OLAP
OLAP是Redshift使用的在线分析处理系统。
OLAP交易示例:
假设我们要计算数字广播产品的EMEA和Pacific的净利润。这需要提取大量记录。以下是计算净利润所需的记录:
- 在欧洲,中东和非洲地区出售的电台总数。
- 在太平洋地区销售的电台总数。
- 每个区域中无线电的单位成本。
- 每个收音机的销售价格
- 销售价格-单位成本
需要复杂的查询才能获取上面给出的记录。从数据库角度和基础架构层来看,数据仓库数据库都使用不同的类型体系结构。
红移配置
Redshift由两种类型的节点组成:
单节点:单个节点最多可存储160 GB。
多节点:多节点是由多个节点组成的节点。它有两种类型:
- 领导节点它管理客户端连接并接收查询。领导者节点从客户端应用程序接收查询,解析查询,并制定执行计划。它与计算节点并行执行这些计划,并合并所有节点的中间结果,然后将最终结果返回给客户端应用程序。
- 计算节点计算节点执行执行计划,然后将中间结果发送到领导节点进行聚合,然后再发送回客户端应用程序。它最多可以具有128个计算节点。
让我们通过一个示例来理解领导者节点和计算节点的概念。
Redshift仓库是称为节点的计算资源的集合,这些节点被组织为称为集群的组。每个集群都在Redshift Engine中运行,该引擎包含一个或多个数据库。
启动Redshift实例时,它从大小为160 GB的单个节点开始。当您要扩展时,可以添加其他节点以利用并行处理。您具有管理多个节点的领导节点。领导节点处理客户端连接以及计算节点。它将数据存储在计算节点中并执行查询。
为什么Redshift快10倍
Redshift的速度提高了10倍,原因如下:
- 列式数据存储Amazon Redshift并非按一系列行存储数据,而是按列组织数据。基于行的系统是事务处理的理想选择,而基于列的系统是数据仓库和分析的理想选择,其中查询通常涉及对大型数据集执行的聚合。由于仅处理查询中涉及的列,并且将列数据顺序存储在存储介质中,因此基于列的系统需要较少的I / O,从而提高了查询性能。
- 高级压缩与基于行的数据存储相比,列式数据存储可以压缩得多,因为相似的数据按顺序存储在磁盘上。 Amazon Redshift采用了多种压缩技术,相对于传统的关系数据存储,通常可以实现显着的压缩。 Amazon Redshift不需要索引或实例化视图,因此与传统的关系数据库系统相比,它需要的空间更少。将数据加载到空表中时,Amazon Redshift会自动对数据采样并选择最合适的压缩技术。
- 大规模并行处理Amazon Redshift自动在各个节点之间分配数据并加载查询。 Amazon Redshift使您可以轻松地向您的数据仓库添加新节点,这使我们能够随着数据仓库的增长而实现更快的查询性能。
红移功能
Redshift的功能如下:
- 易于设置,部署和管理
- 自动化配置Redshift易于设置和操作。您只需在AWS控制台中单击几下即可部署新的数据仓库,Redshift会自动为您配置基础架构。在AWS中,所有管理任务都是自动化的,例如备份和复制,您需要专注于数据而不是管理。
- 自动备份Redshift自动将您的数据备份到S3。您也可以在其他区域的S3中复制快照,以进行任何灾难恢复。
- 高性价比
- 无需预付费,即付即用Amazon Redshift是最具成本效益的数据仓库服务,因为您只需要为使用的商品付费。它的成本从每小时0.25美元开始,没有承诺,也没有前期成本,并且可以扩展到每年每TB 250美元。 Amazon Redshift是唯一不提供按需定价而无需支付前期费用的数据仓库服务,并且还提供了预留实例定价,通过提供1-3年的期限可以节省多达75%的费用。
- 选择您的节点类型。您可以选择两个节点之一来优化Redshift。
- 密集计算节点密集计算节点可以使用快速CPU,大量RAM和固态磁盘来创建高性能数据仓库。
- 密集存储节点如果要降低成本,则可以使用密集存储节点。它通过使用更大的硬盘驱动器来创建具有成本效益的数据仓库。
- 快速扩展以满足您的需求。
- PB级数据仓库Amazon Redshift根据需要的更改自动按比例放大或缩小节点。只需在AWS控制台中单击几下或一次API调用,即可轻松更改数据仓库中的节点数。
- EB级数据湖分析它是Redshift的一项功能,使您可以对Amazon S3中的EB级数据运行查询。 Amazon S3是一种安全且经济高效的数据,以开放格式存储无限的数据。
- 无限并发Redshift的一项功能意味着多个查询可以访问Amazon S3中的相同数据。它使您可以跨多个节点运行查询,而不管查询的复杂性或数据量如何。
- 查询您的数据湖Amazon Redshift是唯一用于查询Amazon S3数据湖而不加载数据的数据仓库。通过将经常访问的数据存储在Redshift中以及将非结构化或不经常访问的数据存储在Amazon S3中,可以提供灵活性。
- 安全通过几个参数设置,您可以将Redshift设置为使用SSL来保护数据。您还可以启用加密,所有写入磁盘的数据都将被加密。
- 更快的性能Amazon Redshift提供了列式数据存储,压缩和并行处理,以减少执行查询所需的I / O数量。这样可以提高查询性能。