📝 Hadoop教程
214篇技术文档📅  最后修改于: 2020-12-01 06:37:25        🧑  作者: Mango
Hadoop是一个开放源代码框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。本简短教程简要介绍了大数据,MapReduce算法和Hadoop分布式文件系统。本教程是为渴望使用Hadoop框架学习大数据分析基础知识并成为Hadoop开发人员的专业人员准备的。软件专业人员,分析专业人员和ETL开发人员是本课程的...
📅  最后修改于: 2020-12-01 06:37:58        🧑  作者: Mango
“全球数据的90%是在最近几年中产生的。”由于诸如社交网站之类的新技术,设备和通信手段的出现,人类每年产生的数据量正在迅速增长。从开始到2003年,我们产生的数据量为50亿千兆字节。如果以磁盘形式堆积数据,则可能会占用整个足球场。2011年每两天和2013年每十分钟创建一次相同的数量。这个速度仍在极大地增长。尽管产生的所有这些信息都是有意义的,并且在处理时可能会有用,但是却被忽略了。什么是大数据?...
📅  最后修改于: 2020-12-01 06:38:16        🧑  作者: Mango
传统方法通过这种方法,企业将拥有一台用于存储和处理大数据的计算机。出于存储目的,程序员将在他们选择的数据库供应商(例如Oracle,IBM等)的帮助下。通过这种方法,用户与应用程序进行交互,而应用程序又负责处理数据存储和分析的一部分。局限性对于那些处理标准数据库服务器无法容纳的大量数据或处理数据的处理器限制的应用程序,此方法可以很好地工作。但是,当涉及处理大量可伸缩数据时,通过单个数据库瓶颈处理此...
📅  最后修改于: 2020-12-01 06:38:46        🧑  作者: Mango
Hadoop是用Java编写的Apache开放源代码框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。 Hadoop框架应用程序在提供跨计算机群集的分布式存储和计算的环境中工作。 Hadoop旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。Hadoop架构Hadoop的核心有两个主要层,即-处理/计算层(MapReduce),以及存储层(Hadoop分布式文...
📅  最后修改于: 2020-12-01 06:40:10        🧑  作者: Mango
Hadoop受GNU / Linux平台及其支持。因此,我们必须安装Linux操作系统来设置Hadoop环境。如果您使用的操作系统不是Linux,则可以在其中安装Virtualbox软件,并在Virtualbox中安装Linux。预安装设置在将Hadoop安装到Linux环境之前,我们需要使用ssh(安全Shell)设置Linux。请按照以下给出的步骤来设置Linux环境。创建一个用户首先,建议为...
📅  最后修改于: 2020-12-01 06:40:36        🧑  作者: Mango
Hadoop文件系统是使用分布式文件系统设计开发的。它在商品硬件上运行。与其他分布式系统不同,HDFS具有高度的容错能力,并使用低成本硬件进行设计。HDFS可以存储大量数据,并提供更轻松的访问。为了存储如此庞大的数据,文件需要存储在多台计算机上。这些文件以冗余方式存储,以在发生故障时从可能的数据丢失中挽救系统。 HDFS还使应用程序可用于并行处理。HDFS的功能适用于分布式存储和处理。Hadoop...
📅  最后修改于: 2020-12-01 06:40:57        🧑  作者: Mango
启动HDFS最初,您必须格式化已配置的HDFS文件系统,打开namenode(HDFS服务器),然后执行以下命令。格式化HDFS后,启动分布式文件系统。以下命令将启动namenode以及作为群集的数据节点。列出HDFS中的文件将信息加载到服务器中后,我们可以使用‘ls’查找目录中的文件列表,文件状态。下面给出的是ls的语法,您可以将其传递到目录或文件名作为参数。将数据插入HDFS假设我们在本地系统...
📅  最后修改于: 2020-12-01 06:41:23        🧑  作者: Mango
“ $ HADOOP_HOME / bin / hadoop fs”中的命令比此处演示的要多,尽管这些基本操作可以帮助您入门。在不使用其他参数的情况下运行./bin/hadoop dfs将列出可以在FsShell系统上运行的所有命令。此外,如果您遇到问题,$ HADOOP_HOME / bin / hadoop fs -helpcommandName将显示有关操作的简短用法摘要。所有操作的表格如下...
📅  最后修改于: 2020-12-01 06:43:04        🧑  作者: Mango
MapReduce是一个框架,通过该框架,我们可以编写应用程序以可靠的方式在大型商用硬件集群上并行处理大量数据。什么是MapReduce?MapReduce是基于Java的分布式计算的处理技术和程序模型。 MapReduce算法包含两个重要任务,即Map和Reduce。 Map获取一组数据并将其转换为另一组数据,其中各个元素被分解为元组(键/值对)。其次,reduce任务,它将地图的输出作为输入,...
📅  最后修改于: 2020-12-01 06:43:42        🧑  作者: Mango
Hadoop流是Hadoop发行版随附的实用程序。使用此实用程序,您可以使用任何可执行文件或脚本作为映射器和/或化简器来创建和运行Map / Reduce作业。使用Python的示例对于Hadoop流,我们正在考虑字数问题。 Hadoop中的任何作业都必须具有两个阶段:映射器和化简器。我们已经用Python脚本编写了映射器和化简器的代码,以便在Hadoop下运行它。也可以在Perl和Ruby中编写...
📅  最后修改于: 2020-12-01 06:45:00        🧑  作者: Mango
本章介绍了在分布式环境中的Hadoop Multi-Node集群的设置。由于无法演示整个集群,因此我们在解释Hadoop集群环境时使用了三个系统(一个主系统和两个从属系统)。以下是他们的IP地址。Hadoop管理员:192.168.1.15(hadoop-master)Hadoop从站:192.168.1.16(hadoop-slave-1)Hadoop从站:192.168.1.17(hadoop...
📅  最后修改于: 2020-12-01 06:45:16        🧑  作者: Mango
Hadoop Questions and Answers的设计旨在帮助学生和专业人员准备各种认证考试和求职面试。本节提供了一些有用的示例性面试问题和多项选择题(MCQ)及其答案以及适当的解释。Sr.No.Question/Answers Type1Hadoop Interview QuestionsThis section provides a huge collection of Hadoop ...
📅  最后修改于: 2020-12-01 06:45:34        🧑  作者: Mango
以下资源包含有关Hadoop的其他信息。请使用它们来获得有关该主题的更深入的知识。Hadoop上的有用链接Hadoop-Apache Hadoop简介。Hadoop Wikipedia–Hadoop的完整Wikipedia。Hadoop基础-Hadoop基础。Hadoop上的有用书籍要在此页面上注册您的网站,请发送电子邮件至...
📅  最后修改于: 2020-12-01 06:45:47        🧑  作者: Mango
Hadoop是一个开放源代码框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。本简短教程简要介绍了大数据,MapReduce算法和Hadoop分布式文件系统。...
📅  最后修改于: 2020-12-03 01:33:12        🧑  作者: Mango
Hadoop教程Hadoop教程提供了Hadoop的基本和高级概念。我们的Hadoop教程专为初学者和专业人士设计。Hadoop是一个开源框架。它由Apache提供,用于处理和分析大量数据。它是用Java编写的,目前由Google,Facebook,LinkedIn,Yahoo,Twitter等使用。我们的Hadoop教程包括具有HDFS,MapReduce,Yarn,Hive,HBase,Pig...