📜  Apache Tajo-简介

📅  最后修改于: 2020-12-02 06:01:23             🧑  作者: Mango


分布式数据仓库系统

数据仓库是一个关系数据库,旨在用于查询和分析,而不是用于事务处理。它是面向主题的,集成的,随时间变化且非易失性的数据收集。该数据可帮助分析师在组织中做出明智的决策,但是关系数据量却每天都在增加。

为了克服这些挑战,分布式数据仓库系统出于在线分析处理(OLAP)的目的而跨多个数据存储库共享数据。每个数据仓库可能属于一个或多个组织。它执行负载平衡和可伸缩性。元数据被复制并集中分布。

Apache Tajo是一个分布式数据仓库系统,它使用Hadoop分布式文件系统(HDFS)作为存储层,并拥有自己的查询执行引擎而不是MapReduce框架。

Hadoop上的SQL概述

Hadoop是一个开放源代码框架,允许在分布式环境中存储和处理大数据。它非常快速和强大。但是,Hadoop具有有限的查询功能,因此借助Hadoop上的SQL可以使其性能更好。这使用户可以通过简单的SQL命令与Hadoop进行交互。

Hadoop应用程序上的SQL的一些示例是Hive,Impala,Drill,Presto,Spark,HAWQ和Apache Tajo。

什么是Apache Tajo

Apache Tajo是一个关系和分布式数据处理框架。它设计用于低延迟和可扩展的即席查询分析。

  • Tajo支持标准SQL和各种数据格式。大多数Tajo查询可以在不进行任何修改的情况下执行。

  • Tajo通过重新启动机制对失败的任务和可扩展的查询重写引擎具有容错能力

  • Tajo执行必要的ETL(提取转换和加载过程)操作以汇总存储在HDFS上的大型数据集。它是Hive / Pig的替代选择。

Tajo的最新版本与Java程序和第三方数据库(例如Oracle和PostGreSQL)具有更大的连接性。

Apache Tajo的功能

Apache Tajo具有以下功能-

  • 出色的可扩展性和优化的性能
  • 低延迟
  • 用户定义的功能
  • 行/列存储处理框架。
  • 与HiveQL和Hive MetaStore的兼容性
  • 简单的数据流和易于维护。

Apache Tajo的好处

Apache Tajo提供以下好处-

  • 易于使用
  • 简化架构
  • 基于成本的查询优化
  • 向量化查询执行计划
  • 交货快
  • 简单的I / O机制,并支持各种类型的存储。
  • 容错能力

Apache Tajo的用例

以下是Apache Tajo的一些用例-

数据仓储与分析

韩国的SK Telecom公司使用Tajo处理了1.7 TB的数据,发现与Hive或Impala相比,它可以更快地完成查询。

数据发现

韩国音乐流媒体服务Melon使用Tajo进行分析处理。 Tajo执行ETL(提取,转换,加载过程)作业的速度是Hive的1.5至10倍。

日志分析

位于韩国的韩国公司Bluehole Studio开发了《 TERA》(幻想多人在线游戏)。该公司使用Tajo进行游戏日志分析并查找服务质量中断的主要原因。

存储和数据格式

Apache Tajo支持以下数据格式-

  • JSON格式
  • 文字档(CSV)
  • 木地板
  • 序列文件
  • 阿沃
  • 协议缓冲区
  • 阿帕奇兽人

Tajo支持以下存储格式-

  • HDFS
  • JDBC
  • 亚马逊S3
  • Apache HBase
  • 弹性搜索