📝 Hadoop教程

214篇技术文档
  HBase写入

📅  最后修改于: 2020-12-03 01:51:16        🧑  作者: Mango

HBase写默认情况下,写操作进入两个地方:预写日志(WAL),HLog和内存中的写缓冲区MemStore。客户端在写入过程中不会直接与基础HFile进行交互,而是会将写入并行地传递到WAL和MemStore。对HBase的每次写入都需要WAL和MemStore的确认。...

  HBase MemStore

📅  最后修改于: 2020-12-03 01:52:12        🧑  作者: Mango

HBase MemStoreMemStore是一个写缓冲区,在此缓冲区中,HBase会在永久写入之前在内存中累积数据。当MemStore填满时,其内容将刷新到磁盘以形成HFile。它不会写入现有的HFile,而是在每次刷新时形成一个新文件。HFile是HBase的基础存储格式。HFiles属于一个列族(每个列族一个MemStore)。列族可以有多个HFile,但是事实并非如此。MemStore的大...

  HBase安装

📅  最后修改于: 2020-12-03 01:53:18        🧑  作者: Mango

HBase安装安装HBase的前提条件是必须在Linux机器上安装Java和Hadoop。Hbase可以以三种模式安装:独立,伪分布式模式和完全分布式模式。<em>从http://www.interior-dsgn.com/apache/hbase/stable/</em>下载Hbase软件包,并使用以下命令将其解压缩。以超级用户身份登录,如下所示在独立模式下配置HBase设置HBase的java...

  RDBMS与HBase

📅  最后修改于: 2020-12-03 01:54:16        🧑  作者: Mango

RDBMS与HBaseRDBMS和HBase之间的区别如下。可以将RDBMS中的架构/数据库与Hbase中的名称空间进行比较。可以将RDBMS中的表与Hbase中的列族进行比较。可以将RDBMS中的一条记录(在表连接之后)与Hbase中的一条记录进行比较。可以将RDBMS中的表集合与Hbase中的表进行比较。...

  HBase命令

📅  最后修改于: 2020-12-03 01:55:14        🧑  作者: Mango

HBase命令下面给出了HBase命令的列表。创建:创建一个由“ table1”标识的新表和由“ colf”标识的列族。放置:将新记录插入到表中,并以“行..”标识行。扫描:返回表中存储的数据Get:返回与表中提供的行标识符匹配的记录帮助:获取命令列表...

  HBase示例

📅  最后修改于: 2020-12-03 01:56:23        🧑  作者: Mango

HBase示例让我们看一个HBase示例,该示例在HBase表中导入文件数据。用例我们必须通过Java API将文件中存在的数据导入到HBase表中。Data_file.txt包含以下数据Java代码如下所示此数据必须输入到要通过JAVA API创建的新HBase表中。必须创建以下列族列族区域具有三个列限定符:国家,州,城市列族时间有两个列限定符:年,月Jar文件在编写代码时,请确保存在以下jar...

  Hive教程-JavaPoint

📅  最后修改于: 2020-12-03 03:38:17        🧑  作者: Mango

蜂巢教程Hive教程提供了Hive的基本和高级概念。我们的Hive教程专为初学者和专业人士设计。Apache Hive是用于Hadoop的数据仓库系统,它运行SQL之类的查询,称为HQL(Hive查询语言),该查询在内部进行转换以减少地图作业。 Hive由Facebook开发。它支持数据定义语言,数据操作语言和用户定义的功能。我们的Hive教程包括Apache Hive的所有主题,包括Hive安装...

  什么是Hive

📅  最后修改于: 2020-12-03 03:39:08        🧑  作者: Mango

什么是HIVEHive是一个数据仓库系统,用于分析结构化数据。它建立在Hadoop的顶部。它是由Facebook开发的。Hive提供了读取,写入和管理驻留在分布式存储中的大型数据集的功能。它运行类似于SQL的查询,称为HQL(Hive查询语言),在内部将其转换为MapReduce作业。使用Hive,我们可以跳过编写复杂MapReduce程序的传统方法的要求。 Hive支持数据定义语言(DDL),数...

  蜂巢架构

📅  最后修改于: 2020-12-03 03:40:00        🧑  作者: Mango

蜂巢架构以下架构说明了将查询提交到Hive的流程。蜂巢客户Hive允许使用各种语言(包括Java, Python和C++)编写应用程序。它支持不同类型的客户端,例如:Thrift服务器-这是一个跨语言服务提供商平台,可为来自所有支持Thrift的编程语言的请求提供服务。JDBC驱动程序-用于在配置单元和Java应用程序之间建立连接。 JDBC驱动程序存在于org.apache.hadoop.hiv...

  蜂巢安装

📅  最后修改于: 2020-12-03 03:40:53        🧑  作者: Mango

Apache Hive安装在本节中,我们将执行Hive安装。前提条件Java安装-使用以下命令检查是否已安装Java。Hadoop安装-使用以下命令检查是否已安装Hadoop。如果您的系统中未安装其中任何一个,请<a href=””>点击以下链接进行安装点击此处安装</a>。安装Apache Hive的步骤下载Apache Hive tar文件。D解压缩下载的tar文件。D打开bashrc文件。D...

  Hive数据类型

📅  最后修改于: 2020-12-03 03:41:47        🧑  作者: Mango

HIVE数据类型蜂房数据类型分为数字类型,字符串类型,杂类类型和复杂类型。 Hive数据类型的列表在下面给出。整数类型TypeSizeRangeTINYINT1-byte signed integer-128 to 127SMALLINT2-byte signed integer32,768 to 32,767INT4-byte signed integer2,147,483,648 to 2,1...

  配置单元创建数据库

📅  最后修改于: 2020-12-03 03:42:50        🧑  作者: Mango

蜂巢-创建数据库在Hive中,数据库被视为表的目录或名称空间。因此,我们可以在数据库中维护多个表,在每个表中都分配了唯一的名称。 Hive还提供了一个名称为default的默认数据库。最初,我们检查Hive提供的默认数据库。因此,要检查现有数据库的列表,请遵循以下命令:-在这里,我们可以看到Hive提供的默认数据库的存在。让我们使用以下命令创建一个新数据库:-因此,创建了一个新的数据库。让我们检查...

  Hive Drop数据库

📅  最后修改于: 2020-12-03 03:43:46        🧑  作者: Mango

Hive-放置数据库在本节中,我们将看到删除现有数据库的各种方法。让我们使用以下命令检查现有数据库的列表:-现在,使用以下命令删除数据库。让我们检查数据库是否已删除。可以看到,列表中没有数据库演示。因此,数据库删除成功。如果我们尝试删除不存在的数据库,则会产生以下错误:但是,如果我们想抑制Hive在创建具有相同名称的数据库时生成的警告,请遵循以下命令:在Hive中,不允许直接删除包含表的数据库。在...

  配置单元创建表

📅  最后修改于: 2020-12-03 03:44:42        🧑  作者: Mango

蜂巢-创建表在Hive中,我们可以使用类似于SQL的约定来创建表。在存储表的数据文件时,它具有广泛的灵活性。它提供两种类型的表:-内部表外部表内部表内部表也称为托管表,因为其数据的生命周期由Hive控制。默认情况下,这些表存储在hive.metastore.warehouse.dir定义的目录(即/ user / hive / warehouse)下的子目录中。内部表不够灵活,无法与Pig等其他工...

  蜂巢加载数据

📅  最后修改于: 2020-12-03 03:45:36        🧑  作者: Mango

配置单元-加载数据一旦创建了内部表,下一步就是将数据加载到其中。因此,在Hive中,我们可以轻松地将数据从任何文件加载到数据库。让我们使用以下命令将文件的数据加载到数据库中:-在这里,emp_details是包含数据的文件名。现在,我们可以使用以下命令从数据库中检索数据。如果要将更多数据添加到当前数据库中,只需更新新文件名即可再次执行相同的查询。让我们检查更新表的数据:-在Hive中,如果我们尝试...