AWS Redshift - 芒果文档

📌 相关文章

📜 AWS Redshift

📅 最后修改于: 2020-11-07 03:22:03 🧑 作者: Mango

什么是红移?

Redshift是一种快速而强大的，完全托管的，PB级的数据仓库服务，位于云中。
客户可以以每小时0.25美元的价格使用Redshift，而无需承担任何承诺或前期费用，并且可以以每年每TB 1000美元的价格扩展到PB或更多。

OLAP

OLAP是Redshift使用的在线分析处理系统。

OLAP交易示例：

假设我们要计算数字广播产品的EMEA和Pacific的净利润。这需要提取大量记录。以下是计算净利润所需的记录：

在欧洲，中东和非洲地区出售的电台总数。
在太平洋地区销售的电台总数。
每个区域中无线电的单位成本。
每个收音机的销售价格
销售价格-单位成本

需要复杂的查询才能获取上面给出的记录。从数据库角度和基础架构层来看，数据仓库数据库都使用不同的类型体系结构。

红移配置

Redshift由两种类型的节点组成：

单节点
多节点

单节点：单个节点最多可存储160 GB。

多节点：多节点是由多个节点组成的节点。它有两种类型：

领导节点它管理客户端连接并接收查询。领导者节点从客户端应用程序接收查询，解析查询，并制定执行计划。它与计算节点并行执行这些计划，并合并所有节点的中间结果，然后将最终结果返回给客户端应用程序。
计算节点计算节点执行执行计划，然后将中间结果发送到领导节点进行聚合，然后再发送回客户端应用程序。它最多可以具有128个计算节点。

让我们通过一个示例来理解领导者节点和计算节点的概念。

Redshift仓库是称为节点的计算资源的集合，这些节点被组织为称为集群的组。每个集群都在Redshift Engine中运行，该引擎包含一个或多个数据库。

启动Redshift实例时，它从大小为160 GB的单个节点开始。当您要扩展时，可以添加其他节点以利用并行处理。您具有管理多个节点的领导节点。领导节点处理客户端连接以及计算节点。它将数据存储在计算节点中并执行查询。

为什么Redshift快10倍

Redshift的速度提高了10倍，原因如下：

列式数据存储Amazon Redshift并非按一系列行存储数据，而是按列组织数据。基于行的系统是事务处理的理想选择，而基于列的系统是数据仓库和分析的理想选择，其中查询通常涉及对大型数据集执行的聚合。由于仅处理查询中涉及的列，并且将列数据顺序存储在存储介质中，因此基于列的系统需要较少的I / O，从而提高了查询性能。
高级压缩与基于行的数据存储相比，列式数据存储可以压缩得多，因为相似的数据按顺序存储在磁盘上。 Amazon Redshift采用了多种压缩技术，相对于传统的关系数据存储，通常可以实现显着的压缩。 Amazon Redshift不需要索引或实例化视图，因此与传统的关系数据库系统相比，它需要的空间更少。将数据加载到空表中时，Amazon Redshift会自动对数据采样并选择最合适的压缩技术。
大规模并行处理Amazon Redshift自动在各个节点之间分配数据并加载查询。 Amazon Redshift使您可以轻松地向您的数据仓库添加新节点，这使我们能够随着数据仓库的增长而实现更快的查询性能。

红移功能

Redshift的功能如下：

易于设置，部署和管理
- 自动化配置Redshift易于设置和操作。您只需在AWS控制台中单击几下即可部署新的数据仓库，Redshift会自动为您配置基础架构。在AWS中，所有管理任务都是自动化的，例如备份和复制，您需要专注于数据而不是管理。
- 自动备份Redshift自动将您的数据备份到S3。您也可以在其他区域的S3中复制快照，以进行任何灾难恢复。
高性价比
- 无需预付费，即付即用Amazon Redshift是最具成本效益的数据仓库服务，因为您只需要为使用的商品付费。它的成本从每小时0.25美元开始，没有承诺，也没有前期成本，并且可以扩展到每年每TB 250美元。 Amazon Redshift是唯一不提供按需定价而无需支付前期费用的数据仓库服务，并且还提供了预留实例定价，通过提供1-3年的期限可以节省多达75％的费用。
- 选择您的节点类型。您可以选择两个节点之一来优化Redshift。
  - 密集计算节点密集计算节点可以使用快速CPU，大量RAM和固态磁盘来创建高性能数据仓库。
  - 密集存储节点如果要降低成本，则可以使用密集存储节点。它通过使用更大的硬盘驱动器来创建具有成本效益的数据仓库。
快速扩展以满足您的需求。
- PB级数据仓库Amazon Redshift根据需要的更改自动按比例放大或缩小节点。只需在AWS控制台中单击几下或一次API调用，即可轻松更改数据仓库中的节点数。
- EB级数据湖分析它是Redshift的一项功能，使您可以对Amazon S3中的EB级数据运行查询。 Amazon S3是一种安全且经济高效的数据，以开放格式存储无限的数据。
- 无限并发Redshift的一项功能意味着多个查询可以访问Amazon S3中的相同数据。它使您可以跨多个节点运行查询，而不管查询的复杂性或数据量如何。
查询您的数据湖Amazon Redshift是唯一用于查询Amazon S3数据湖而不加载数据的数据仓库。通过将经常访问的数据存储在Redshift中以及将非结构化或不经常访问的数据存储在Amazon S3中，可以提供灵活性。
安全通过几个参数设置，您可以将Redshift设置为使用SSL来保护数据。您还可以启用加密，所有写入磁盘的数据都将被加密。
更快的性能Amazon Redshift提供了列式数据存储，压缩和并行处理，以减少执行查询所需的I / O数量。这样可以提高查询性能。