📅  最后修改于: 2020-12-02 06:01:23             🧑  作者: Mango
数据仓库是一个关系数据库,旨在用于查询和分析,而不是用于事务处理。它是面向主题的,集成的,随时间变化且非易失性的数据收集。该数据可帮助分析师在组织中做出明智的决策,但是关系数据量却每天都在增加。
为了克服这些挑战,分布式数据仓库系统出于在线分析处理(OLAP)的目的而跨多个数据存储库共享数据。每个数据仓库可能属于一个或多个组织。它执行负载平衡和可伸缩性。元数据被复制并集中分布。
Apache Tajo是一个分布式数据仓库系统,它使用Hadoop分布式文件系统(HDFS)作为存储层,并拥有自己的查询执行引擎而不是MapReduce框架。
Hadoop是一个开放源代码框架,允许在分布式环境中存储和处理大数据。它非常快速和强大。但是,Hadoop具有有限的查询功能,因此借助Hadoop上的SQL可以使其性能更好。这使用户可以通过简单的SQL命令与Hadoop进行交互。
Hadoop应用程序上的SQL的一些示例是Hive,Impala,Drill,Presto,Spark,HAWQ和Apache Tajo。
Apache Tajo是一个关系和分布式数据处理框架。它设计用于低延迟和可扩展的即席查询分析。
Tajo支持标准SQL和各种数据格式。大多数Tajo查询可以在不进行任何修改的情况下执行。
Tajo通过重新启动机制对失败的任务和可扩展的查询重写引擎具有容错能力。
Tajo执行必要的ETL(提取转换和加载过程)操作以汇总存储在HDFS上的大型数据集。它是Hive / Pig的替代选择。
Tajo的最新版本与Java程序和第三方数据库(例如Oracle和PostGreSQL)具有更大的连接性。
Apache Tajo具有以下功能-
Apache Tajo提供以下好处-
以下是Apache Tajo的一些用例-
韩国的SK Telecom公司使用Tajo处理了1.7 TB的数据,发现与Hive或Impala相比,它可以更快地完成查询。
韩国音乐流媒体服务Melon使用Tajo进行分析处理。 Tajo执行ETL(提取,转换,加载过程)作业的速度是Hive的1.5至10倍。
位于韩国的韩国公司Bluehole Studio开发了《 TERA》(幻想多人在线游戏)。该公司使用Tajo进行游戏日志分析并查找服务质量中断的主要原因。
Apache Tajo支持以下数据格式-
Tajo支持以下存储格式-