📝 Hadoop教程
214篇技术文档📅  最后修改于: 2020-12-03 09:11:07        🧑  作者: Mango
火花组件Spark项目由不同类型的紧密集成的组件组成。 Spark的核心是可以调度,分发和监视多个应用程序的计算引擎。让我们详细了解每个Spark组件。火花芯Spark Core是Spark的核心,并执行核心功能。它包含用于任务计划,故障恢复,与存储系统交互以及内存管理的组件。Spark SQLSpark SQL构建在Spark Core的顶部。它提供对结构化数据的支持。它允许通过SQL(结构化查...
📅  最后修改于: 2020-12-03 09:12:00        🧑  作者: Mango
什么是RDD?RDD(弹性分布式数据集)是Spark的核心抽象。它是元素的集合,分布在集群的各个节点上,因此我们可以对其执行各种并行操作。有两种创建RDD的方法:并行化驱动程序中的现有数据引用外部存储系统中的数据集,例如共享文件系统,HDFS,HBase或提供Hadoop InputFormat的任何数据源。并行集合要创建并行化的集合,请在驱动程序中的现有集合上调用SparkContext的par...
📅  最后修改于: 2020-12-03 09:13:00        🧑  作者: Mango
RDD操作RDD提供两种类型的操作:转型行动转型在Spark中,转换的作用是从现有数据集中创建新数据集。转换被认为是惰性的,因为它们仅在动作需要将结果返回给驱动程序时才计算。让我们看一些常用的RDD转换。TransformationDescriptionmap(func)It returns a new distributed dataset formed by passing each elem...
📅  最后修改于: 2020-12-03 09:13:53        🧑  作者: Mango
RDD持久性通过将数据持久存储在操作中的内存中,Spark提供了一种方便的方法来处理数据集。在保留RDD时,每个节点会将其计算的任何分区存储在内存中。现在,我们还可以在该数据集的其他任务中重用它们。我们可以使用persist()或cache()方法来标记要保留的RDD。 Spark的缓存是容错的。无论如何,如果RDD的分区丢失,它将使用最初创建它的转换自动重新计算它。可以使用不同的存储级别来存储持...
📅  最后修改于: 2020-12-04 00:43:42        🧑  作者: Mango
RDD共享变量在Spark中,当任何函数传递给转换操作时,它将在远程集群节点上执行。它对函数中使用的所有变量的不同副本函数。这些变量将复制到每台计算机,并且远程计算机上的变量的任何更新都不会还原到驱动程序。广播变量广播变量支持在每台计算机上缓存的只读变量,而不是提供带有任务的副本。 Spark使用广播算法来分发广播变量,以降低通信成本。火花动作的执行经过多个阶段,由分布式“随机播放”操作分隔。 S...
📅  最后修改于: 2020-12-04 00:44:39        🧑  作者: Mango
Spark字数示例在Spark单词计数示例中,我们发现每个单词在特定文件中存在的频率。在这里,我们使用Scala语言执行Spark操作。执行Spark单词计数示例的步骤在此示例中,我们找到并显示每个单词的出现次数。在本地计算机上创建一个文本文件,然后在其中写入一些文本。检查在sparkdata.txt文件中编写的文本。在HDFS中创建一个目录,用于保存文本文件。在指定目录的HDFS上上传spark...
📅  最后修改于: 2020-12-04 00:45:35        🧑  作者: Mango
Spark Char Count示例在Spark char计数示例中,我们发现特定文件中每个字符的出现频率。在这里,我们使用Scala语言执行Spark操作。执行Spark字符计数示例的步骤在此示例中,我们找到并显示每个字符的出现次数。在本地计算机上创建一个文本文件,然后在其中写入一些文本。检查在sparkdata.txt文件中编写的文本。在HDFS中创建一个目录,用于保存文本文件。在指定目录的H...
📅  最后修改于: 2020-12-04 00:46:30        🧑  作者: Mango
大数据的应用大数据一词被称为大量复杂且未经处理的数据。如今,一天的公司使用大数据来使业务更具信息性,并允许数据科学家,分析建模者和其他专业人员分析大量的交易数据,从而制定业务决策。大数据是推动21世纪大型IT行业发展的宝贵动力。大数据是每个业务部门中使用的传播技术。在本节中,我们将讨论大数据的应用。旅行和旅游旅行和旅游业是大数据的用户。它使我们能够预测多个地点的旅行设施需求,通过动态定价来改善业务...
📅  最后修改于: 2020-12-04 00:47:25        🧑  作者: Mango
大数据特征大数据包含大量未由传统数据存储或处理单元处理的数据。许多跨国公司使用它来处理许多组织的数据和业务。复制之前,每天的数据流将超过150艾字节。大数据有五个v可以解释这些特征。5 V的大数据卷真实性品种值速度卷大数据本身就是一个巨大的名称。大数据是每天从许多来源(例如业务流程,机器,社交媒体平台,网络,人机交互等等)中生成的海量数据。Facebook可以产生大约10亿条消息,是记录“赞”按钮...
📅  最后修改于: 2020-12-04 00:48:25        🧑  作者: Mango
Hadoop面试问题在许多公司中都提供了Hadoop面试问题和答案。让我们看一下最重要的Hadoop面试问题列表。1)什么是Hadoop?Hadoop是一个分布式计算平台。它是用Java编写的。它包含Google File System和MapReduce之类的功能。2)运行Hadoop需要什么平台和Java版本?Java 1.6.x或更高版本适合Hadoop,最好是Sun。 Linux和Wind...
📅  最后修改于: 2021-10-27 06:27:37        🧑  作者: Mango
如果您曾经遇到过“大数据”一词(这在当今的场景中很常见),那么您一定也听说过“Hadoop”。大部分大型科技公司正在利用 Hadoop 技术来管理其庞大的分布式数据集。据统计,到 2025 年,Hadoop 市场预计将增长超过 3000 亿美元。此外,亚马逊、IBM、思科等各种 IT 巨头都在 Hadoop 领域提供了大量的职业机会,如果您期待大数据领域的一份有意义的职业,那么Hadoop 开发人...
📅  最后修改于: 2021-10-27 06:27:49        🧑  作者: Mango
先决条件 – Hadoop、计算平台和技术简介Apache Hive是一个数据仓库和 ETL 工具,它在用户和集成了 Hadoop 的 Hadoop 分布式文件系统 (HDFS) 之间提供类似 SQL 的接口。它建立在 Hadoop 之上。它是一个提供数据查询和分析的软件项目。它有助于读取、写入和处理存储在分布式存储中并通过结构查询语言 (SQL) 语法查询的广泛数据集。它不是为在线事务处理 (O...
📅  最后修改于: 2021-10-27 06:28:00        🧑  作者: Mango
我们大多数人都熟悉术语Rack。机架是我们 Hadoop 集群中节点的物理集合(可能是 30 到 40 个)。一个大型 Hadoop 集群由许多机架组成。在此机架信息的帮助下,Namenode 选择最近的 Datanode 以实现最大性能,同时执行减少网络流量的读/写信息。一个机架可以有多个数据节点来存储文件块及其副本。 Hadoop 本身非常聪明,它会自动在 Rack 的 2 个不同数据节点中写...
📅  最后修改于: 2021-10-27 06:28:11        🧑  作者: Mango
“地球上没有任何力量可以阻止一个时机成熟的想法。” – 维克多·雨果大数据就是这样一个非凡的想法。在当今社交活跃的世界中,数据以每天 2.5 万亿字节的惊人速度增长,而且在未来几年内只会增加。Facebook、谷歌、LinkedIn、Twitter 等商业巨头是最早围绕大数据世界开展工作的少数几个协会之一。可以说,总的来说,这是一个大的“大数据”问题。什么是大数据?大数据只不过是由各种数据组成的大...
📅  最后修改于: 2021-10-27 06:28:23        🧑  作者: Mango
Hadoop 是一个用Java编写的开源框架,它使用许多其他分析工具来改进其数据分析操作。本文展示了 Hadoop 可以用来提高其可靠性和处理能力以生成对数据的新洞察的最广泛和最重要的分析工具。 Hadoop 用于某些高级分析,包括机器学习和数据挖掘。市场上有各种各样的分析工具可以帮助 Hadoop 有效地处理天文规模的数据。让我们一一讨论一些最著名和使用最广泛的工具。以下是用于大数据的 10 大...