Apache Presto 概述
概述 :
在当今世界,数据已成为生活中最重要的部分,为不同目的存储和使用数据已成为基本的业务目标。因此,许多技术应运而生,其中之一就是数据分析,它已成为当今行业的主要技术。数据分析是收集相关信息的过程,可以通过分析原始数据来帮助做出更好的决策。但是在包含大量数据的大数据的情况下,分析大量数据变得相当复杂。因此,为了最大限度地降低复杂性并增强分析过程,一项新技术进入了一个被称为 Apache Presto 的地方。
阿帕奇普雷斯托:
Presto 是一个 SQL 查询引擎,由 Facebook 设计和开发,供数据分析师在 Apache Hadoop 中对大量数据库运行交互式查询。 Presto 架构允许来自不同来源的数据源,例如 AWS s3、MySQL 和 Teradata 等。Presto 现在已经成为一个开源软件,在 Apache 许可下供社区使用。 Presto 具有内置的Java API,可以轻松与各种数据基础架构组件集成。 Presto 具有分布式并行处理系统的功能,因此它能够以低延迟率处理交互式查询分析。 Presto 有助于避免一些与内存分配和垃圾收集相关的Java代码问题。 Presto 有一个连接器架构,有助于 Hadoop 系统的平稳运行,并且还支持多个 Hadoop 发行版。
Apache Presto 的特点:
在这里,我们将讨论 Apache Presto 的特性如下。
- Presto 的架构非常具有可玩性和可扩展性以适应新的需求。
- Presto 支持各种可插拔的连接器,为不同的查询提供元数据和数据。
- Presto 具有流水线执行查询的功能可以避免不必要的输入/输出延迟开销。
- Presto 还为数据分析师提供了根据问题解决方案的需求创建用户定义函数的功能。
- Presto 支持向量化列处理,提高了查询的效率。
Apache Presto 的优点:
在这里,我们将讨论 Apache Presto 的优势如下。
- Presto 可以在不停机的情况下运行从 GB 到 PB 的查询规模。
- Presto 非常简单,易于在您自己的计算机上理解和调试。
- Presto 支持 ANSI SQL,这使其在其他分析工具中独树一帜并广受欢迎。
- Presto 具有内置功能,其中每个命令都通过主协调器传递,该协调器指示节点选择以通过调度运行作业。
- Apache Presto 的内存引擎有助于以最快的方式处理大量数据。
Apache Presto 的缺点:
在这里,我们将讨论 Apache Presto 的缺点如下。
- Preso 具有基于优先队列的查询分配,因此一些查询等待更长的时间来处理。
- Presto的设计结构不支持大量数据库的join相关查询。
- Presto 确实利用磁盘空间而不是使用的内存进行处理,但一般来说,人们更喜欢使用一个系统来完成所有目的。
Apache Presto 的应用:
在这里,我们将讨论 Apache Presto 的应用如下。
- 爱彼迎——
Airbnb 的数百名员工使用 Apache Presto 架构来处理大型查询,因此构成了组织的一个组成部分。 - 太数据——
Teradata 有助于在数据分析和数据仓库中提供端到端解决方案。teradata 是 Presto 的贡献者,因为它满足了大多数公司的分析需求。