📝 Hadoop教程

214篇技术文档
  Pig数据类型

📅  最后修改于: 2020-12-03 08:57:55        🧑  作者: Mango

Pig数据类型Apache Pig支持许多数据类型。下面给出了Apache Pig数据类型的列表以及说明和示例。TypeDescriptionExampleIntSigned 32 bit integer2LongSigned 64 bit integer15L or 15lFloat32 bit floating point2.5f or 2.5FDouble32 bit floating po...

  Pig示例

📅  最后修改于: 2020-12-03 08:58:51        🧑  作者: Mango

Pig的例子用例:使用Pig查找出现次数最多的起始字母。解:情况1:将数据加载到名为“ lines”的包中。整行粘贴到字符数组类型的元素行。情况2:袋行中的文本需要标记化,这样每行产生一个单词。情况3:要保留每个单词的第一个字母,请输入以下命令。该命令使用子字符串方法获取第一个字符。案例4:创建独特的字符在分组包将包含该字符的每一次出现相同的字符袋。情况5:每组计算发生次数。情况6:使用以下命令按...

  Pig用户定义的函数

📅  最后修改于: 2020-12-03 08:59:45        🧑  作者: Mango

Pig UDF(用户定义函数)为了指定自定义处理,Pig提供了对用户定义函数(UDF)的支持。因此,Pig允许我们创建自己的功能。当前,可以使用以下编程语言来实现Pig UDF:-爪哇Python吉顿的JavaScript红宝石Groovy在所有语言中,Pig为Java函数提供最广泛的支持。但是,仅对Python,Jython,JavaScript,Ruby和Groovy等语言提供有限的支持。Pi...

  Sqoop教程

📅  最后修改于: 2020-12-03 09:00:36        🧑  作者: Mango

Sqoop教程Sqoop教程提供了Sqoop的基本和高级概念。我们的Sqoop教程专为初学者和专业人士设计。Sqoop是Apache提供的开源框架。它是一个命令行界面应用程序,用于在关系数据库和Hadoop之间传输数据我们的Sqoop教程包括具有Sqoop功能的Apache Sqoop,Sqoop安装,启动Sqoop,Sqoop导入,Sqoop where子句,Sqoop导出,与Hadoop生态系...

  什么是Sqoop

📅  最后修改于: 2020-12-03 09:01:31        🧑  作者: Mango

什么是SqoopSqoop是一个命令行界面应用程序,用于在关系数据库和Hadoop之间传输数据。它支持单个表或自由格式SQL查询的增量加载以及保存的作业,这些作业可以运行多次以导入自上次导入以来对数据库所做的更新。使用Sqoop可以将数据移至HDFS / hive / hbase从MySQL / PostgreSQL / Oracle / SQL Server / DB2开始,反之亦然。Sqoop...

  Sqoop安装

📅  最后修改于: 2020-12-03 09:02:25        🧑  作者: Mango

Sqoop安装Sqoop安装的先决条件是Java和Hadoop。这两个必须预先安装在系统中。从互联网下载最新版本的Sqoop。以下命令用于提取Sqoop tar球并将其移动到“ / usr / lib / sqoop”目录。使用以下命令配置.bashrc文件复制模板文件使用以下行编辑sqoop-env.sh文件使用以下命令下载并设置mysql-connector-java键入以下命令以验证Sqoo...

  启动Sqoop

📅  最后修改于: 2020-12-03 09:03:18        🧑  作者: Mango

启动SqoopSqoop是具有以下结构的命令行工具工具指示操作,例如:“导入”,“导出”。PROPERTY_ARGS是Java属性,格式为“ -Dname = value”SQOOP_ARGS提到了各种Sqoop参数EXTRA_ARGS用于专用连接器,以“-”与SQOOP_ARGS分开例:输入“ sqoop帮助”以获取所有可用工具:后端会发生什么当您决定将数据从RDBMS移到HDFS时,首先使用的...

  Sqoop导入

📅  最后修改于: 2020-12-03 09:04:09        🧑  作者: Mango

Sqoop导入我们在mySql数据库中有表,我们必须使用Sqoop将其导入到HDFS中。要查看表中的内容,请在mySql提示符下键入以下命令。将“国家”表导入到我们的HDFS环境中:在一行中键入上述命令。在此,-m 1为每个表指定一个映射器。所有表都下载到默认目录中。使用的默认映射器数为4。您可以通过在命令后附加“ -m number_of_mappers”来更改此映射器。...

  Sqoop Where子句

📅  最后修改于: 2020-12-03 09:05:03        🧑  作者: Mango

Sqoop在哪里您可以使用“ where”子句对导入的数据进行限制。让我们导入state的cityByCountry表(第6列限于“阿拉斯加”)。Sqoop语句如下所示输出如下所示让我们使用“列表数据库”工具列出mysql服务器上存在的所有数据库。注意:有关列表数据库的更多信息,请键入“ $ sqoop help list-databases”。清单表也是如此...

  Sqoop导出

📅  最后修改于: 2020-12-03 09:05:54        🧑  作者: Mango

Sqoop导出在以前的情况下,数据流是从RDBM到HDFS。使用“导出”工具,我们可以将数据从HDFS导入到RDBM。在执行导出之前,Sqoop从MySQL数据库获取表元数据。因此,我们首先需要创建一个具有所需元数据的表。在MySQL中创建表导出查询如下所示:现在,通过以下代码查看MySQL中的输出。...

  Sqoop与Hadoop生态系统的集成

📅  最后修改于: 2020-12-03 09:06:46        🧑  作者: Mango

Sqoop与Hadoop生态系统的集成到目前为止,数据已在RDBMS之间移动到HDFS。可能还需要使用hive或hbase分析此导入的数据。Sqoop提供了将数据直接导入Hive / Hbase的属性。只需在命令末尾添加“ –import-hive”。例:...

  Apache Spark教程

📅  最后修改于: 2020-12-03 09:07:37        🧑  作者: Mango

Apache Spark教程Apache Spark教程提供了Spark的基本和高级概念。我们的Spark教程专为初学者和专业人士设计。Spark是用于大规模数据处理的统一分析引擎,包括用于SQL,流,机器学习和图形处理的内置模块。我们的Spark教程包含Apache Spark的所有主题,其中包括Spark简介,Spark安装,Spark体系结构,Spark组件,RDD,Spark实时示例等。先...

  Apache Spark简介

📅  最后修改于: 2020-12-03 09:08:30        🧑  作者: Mango

什么是星火?Apache Spark是一个开放源代码群集计算框架。其主要目的是处理实时生成的数据。Spark建立在Hadoop MapReduce的顶部。它经过优化可在内存中运行,而诸如Hadoop的MapReduce之类的替代方法则可以在计算机硬盘之间来回写入数据。因此,Spark处理数据的速度比其他方法快得多。Apache Spark的历史Spark由2009年在加州大学伯克利分校AMPLab...

  Apache Spark安装

📅  最后修改于: 2020-12-03 09:09:22        🧑  作者: Mango

火花安装在本节中,我们将执行Spark的安装。因此,请按照以下步骤操作。下载Apache Spark tar文件。点击这里解压下载的tar文件。打开bashrc文件。现在,在最后复制以下火花路径。更新环境变量让我们在命令提示符下测试安装注意-此处,在Scala模式下启用了Spark。...

  Apache Spark架构

📅  最后修改于: 2020-12-03 09:10:16        🧑  作者: Mango

Spark架构Spark遵循主从架构。它的集群由一个主机和多个从机组成。Spark体系结构取决于两个抽象:弹性分布式数据集(RDD)有向无环图(DAG)弹性分布式数据集(RDD)弹性分布式数据集是可以在工作节点上存储在内存中的一组数据项。这里,弹性:恢复故障数据。分布式:数据分布在不同的节点之间。数据集:数据组。稍后我们将详细了解RDD。有向无环图(DAG)有向无环图是对数据执行一系列计算的有限直...