📝 Hadoop教程

214篇技术文档
  蜂巢删除表

📅  最后修改于: 2020-12-03 03:46:35        🧑  作者: Mango

蜂巢-放置表Hive有助于我们使用SQLdrop table命令删除表。让我们按照以下步骤从数据库中删除表。让我们使用以下命令检查现有数据库的列表:-现在,使用以下命令选择要从中删除表的数据库:-让我们检查相应数据库中现有表的列表。现在,使用以下命令删除表:-让我们检查表是否被删除。如我们所见,表new_employee不存在于列表中。因此,该表被成功删除。...

  Hive更改表

📅  最后修改于: 2020-12-03 03:47:37        🧑  作者: Mango

蜂巢-修改表在Hive中,我们可以在现有表中执行修改,例如更改表名,列名,注释和表属性。它提供类似SQL的命令来更改表。重命名表格如果要更改现有表的名称,可以使用以下签名重命名该表:-让我们看看当前数据库中存在的现有表。现在,使用以下命令更改表的名称:-让我们检查名称是否已更改。在这里,我们得到了期望的输出。添加栏在Hive中,我们可以使用以下签名在现有表中添加一个或多个列:-让我们看看表的架构。...

  在Hive中进行分区

📅  最后修改于: 2020-12-03 03:48:32        🧑  作者: Mango

在Hive中进行分区Hive中的分区意味着根据特定列的值(例如日期,课程,城市或国家/地区)将表格分为几个部分。分区的优势在于,由于数据存储在切片中,因此查询响应时间变得更快。我们知道Hadoop用于处理大量数据,因此始终需要使用最佳方法来处理它。 Hive中的分区就是最好的例子。假设我们有一个在一所大学学习的1000万学生的数据。现在,我们必须获取特定课程的学生。如果使用传统方法,则必须遍历整个...

  Hive中的动态分区

📅  最后修改于: 2020-12-03 03:49:29        🧑  作者: Mango

动态分区在动态分区中,表中存在分区列的值。因此,不需要手动传递分区列的值。首先,选择我们要在其中创建表的数据库。使用以下命令启用动态分区:-创建一个虚拟表来存储数据。现在,将数据加载到表中。使用以下命令创建分区表:-现在,将虚拟表的数据插入分区表。在下面的屏幕截图中,我们可以看到表student_part分为两类。让我们使用以下命令检索表的全部数据:-现在,尝试使用以下命令检索基于分区列的数据:-...

  Hive中的存储桶

📅  最后修改于: 2020-12-03 03:50:35        🧑  作者: Mango

蜂巢中的桶Hive中的存储桶是一种数据组织技术。它类似于Hive中的分区功能,具有将功能强大的功能将大型数据集划分为更易于管理的部分(称为存储桶)的功能。因此,当分区的实现变得困难时,我们可以在Hive中使用存储桶。但是,我们也可以在存储分区中进一步划分分区。蜂巢中的桶装工作存储的概念基于哈希技术。在此,计算当前列值和所需桶数的模块(假设F(x)%3)。现在,基于结果值,数据将存储到相应的存储桶中...

  HiveQL-运算符

📅  最后修改于: 2020-12-03 03:51:34        🧑  作者: Mango

HiveQL-运算子HiveQL运算符有助于执行各种算术和关系运算。在这里,我们将在下表的记录上执行此类操作:Hive中的运算符示例让我们创建一个表,并使用以下步骤将数据加载到其中:-选择我们要在其中创建表的数据库。使用以下命令创建配置单元表:-现在,将数据加载到表中。让我们使用以下命令获取已加载的数据:-现在,我们用相应的示例讨论算术和关系运算符。Hive中的算术运算符在Hive中,算术运算运算...

  HiveQL-函数

📅  最后修改于: 2020-12-03 03:52:36        🧑  作者: Mango

HiveQL-功能Hive提供了各种内置函数来执行数学和聚合类型运算。在这里,我们将在下表的记录上执行此类功能:Hive中的功能示例让我们创建一个表,并使用以下步骤将数据加载到其中:-选择我们要在其中创建表的数据库。使用以下命令创建配置单元表:-现在,将数据加载到表中。让我们使用以下命令获取已加载的数据:-现在,我们将通过相应的示例讨论数学,集合函数和其他内置函数。蜂巢中的数学函数蜂巢中常用的数学...

  HiveQL-GROUP BY和HAVING子句

📅  最后修改于: 2020-12-03 03:53:33        🧑  作者: Mango

HiveQL-GROUP BY和HAVING子句Hive查询语言提供了GROUP BY和HAVING子句,可促进与SQL中类似的功能。在这里,我们将在下表的记录上执行这些子句:按条款分组HQL Group By子句用于根据一个或多个列对来自多个记录的数据进行分组。它通常与聚合函数(例如SUM,COUNT,MIN,MAX和AVG)结合使用,以对每个组执行聚合。Hive中的GROUP BY子句示例让我...

  HiveQL-子句的ORDER BY和SORT BY

📅  最后修改于: 2020-12-03 03:54:28        🧑  作者: Mango

HiveQL-ORDER BY和SORT BY子句通过使用HiveQL ORDER BY和SORT BY子句,我们可以对列应用排序。它以升序或降序返回结果集。在这里,我们将在下表的记录上执行这些子句:HiveQL-按条款订购在HiveQL中,ORDER BY子句执行查询结果集的完整排序。因此,完整的数据将通过单个减速器传递。在执行大型数据集时可能会花费很多时间。但是,我们可以使用LIMIT来最小化...

  HiveQL-加入

📅  最后修改于: 2020-12-03 03:55:29        🧑  作者: Mango

HiveQL-加入HiveQL Join子句用于根据两个或多个表之间的相关列合并数据。 HiveQL联接的各种类型为:-内部联接左外连接右外连接完全外部加入在这里,我们将在下表的记录上执行join子句:内部加入HiveQLHiveQL内部联接用于返回满足联接条件的多个表的行。换句话说,连接条件在每个要连接的表中找到匹配记录。Hive内部联接示例在此示例中,我们采用了两个表employee和empl...

  pig教程

📅  最后修改于: 2020-12-03 03:56:21        🧑  作者: Mango

Apache Pig教程Pig教程提供了Pig的基本和高级概念。我们的Pig教程专为初学者和专业人士设计。Pig是用于执行Hadoop的Map Reduce程序的高级数据流平台。它是由Yahoo开发的。猪的语言是猪拉丁。我们的Pig教程包含Apache Pig的所有主题,包括Pig的用法,Pig安装,Pig运行模式,Pig Latin概念,Pig数据类型,Pig示例,Pig用户定义的函数等。先决条...

  什么是pig

📅  最后修改于: 2020-12-03 03:57:18        🧑  作者: Mango

什么是Apache PigApache Pig是用于执行Hadoop MapReduce程序的高级数据流平台。 Pig的语言是Pig Latin。Pig脚本在内部转换为Map Reduce作业,并在HDFS中存储的数据上执行。除此之外,Pig还可以在Apache Tez或Apache Spark中执行其工作。Pig可以处理任何类型的数据,即结构化,半结构化或非结构化数据,并将相应的结果存储到Had...

  Pig安装

📅  最后修改于: 2020-12-03 08:54:09        🧑  作者: Mango

Apache Pig安装在本节中,我们将执行清管器安装。前提条件Java安装-使用以下命令检查是否已安装Java。Hadoop安装-使用以下命令检查是否已安装Hadoop。如果您的系统中未安装其中任何一个,请按照以下链接进行安装。<a href=”hadoop-installation”>点击这里安装</a>安装Apache Pig的步骤下载Apache Pig tar文件。解压下载的tar文件。...

  Pig运行模式

📅  最后修改于: 2020-12-03 08:56:08        🧑  作者: Mango

Apache Pig运行模式Apache Pig以两种模式执行:本地模式和MapReduce模式。本地模式它在单个JVM中执行,并用于开发实验和原型设计。在这里,文件是使用本地主机安装和运行的。本地模式适用于本地文件系统。输入和输出数据存储在本地文件系统中。本地模式grunt shell的命令:MapReduce模式MapReduce模式也称为Hadoop模式。这是默认模式。在此Pig中,将Pig...

  Pig Latin概念

📅  最后修改于: 2020-12-03 08:57:04        🧑  作者: Mango

Pig LatinPig Latin是Apache Pig用于分析Hadoop中数据的数据流语言。它是一种文本语言,将Java MapReduce惯用语中的编程抽象为一种表示法。Pig Latin语句Pig Latin语句用于处理数据。它是一个接受一个关系作为输入并生成另一个关系作为输出的运算符。它可以跨越多行。每个语句必须以分号结尾。它可能包括表达式和模式。默认情况下,使用多查询执行来处理这些语...