在 Windows 上以独立模式安装 Apache Spark - 芒果文档

📌 相关文章

📜 在 Windows 上以独立模式安装 Apache Spark

📅 最后修改于: 2021-10-27 06:37:03 🧑 作者: Mango

Apache Spark是一种闪电般快速的统一分析引擎，用于对 BigData 和 Hadoop 等大型数据集进行集群计算，旨在跨多个节点并行运行程序。它是多个堆栈库的组合，例如 SQL 和 Dataframes、GraphX、MLlib 和 Spark Streaming。

Spark 以 4 种不同的模式运行：

独立模式：这里所有进程都在同一个 JVM 进程中运行。
独立集群模式：在这种模式下，它使用 Spark 内置的 Job-Scheduling 框架。
Apache Mesos：在这种模式下，工作节点运行在各种机器上，但驱动程序只运行在主节点上。
Hadoop YARN：在这种模式下，驱动程序在应用程序的主节点内运行，并由集群上的 YARN 处理。

在本文中，我们将探索在独立模式下安装 Apache Spark。 Apache Spark 是用 Scala 编程语言开发的，运行在 JVM 上。 Java安装是 spark 中必不可少的事情之一。所以让我们从Java安装开始。

安装Java：

第 1 步：下载Java JDK。

第 2 步：打开下载的Java SE Development Kit 并按照安装说明进行操作。

第 3 步：通过在 Windows 搜索栏中键入环境变量来打开笔记本电脑上的环境变量。

设置 JAVA_HOME 变量：

要设置 JAVA_HOME 变量，请按照以下步骤操作：

单击用户变量将 JAVA_HOME 添加到路径，值为值：C:\Program Files\ Java\jdk1.8.0_261。
单击系统变量将 C:\Program Files\ Java\jdk1.8.0_261\bin 添加到 PATH 变量。
打开命令提示符并键入“Java –version”，它将显示如下所示并验证Java安装。

安装 Scala：

要在本地机器上安装 Scala，请按照以下步骤操作：

第 1 步：下载 Scala。

第 2 步：单击 .exe 文件并按照说明按照您的需要自定义设置。

第 3 步：接受协议并单击下一步按钮。

设置环境变量：

在用户变量中将 SCALA_HOME 添加到值为 C:\Program Files (x86)\scala 的 PATH。
在系统变量中将 C:\Program Files (x86)\scala\bin 添加到 PATH 变量。

验证 Scala 安装：

在命令提示符下，使用以下命令验证 Scala 安装：

scala

安装星火：

下载一个预建版本的 Spark 并将其解压到 C 盘，例如 C:\Spark。然后单击安装文件并按照说明设置 Spark。

设置环境变量：

在用户变量中将 SPARK_HOME 添加到 PATH，值为 C:\spark\spark-2.4.6-bin-hadoop2.7。
在系统变量中将 %SPARK_HOME%\bin 添加到 PATH 变量中。

下载 Windows 实用程序：

如果您希望对 Hadoop 数据进行操作，请按照以下步骤下载适用于 Hadoop 的实用程序：

步骤 1：下载 winutils.exe 文件。

第二步：将文件复制到C:\spark\spark-1.6.1-bin-hadoop2.6\bin。

第三步：现在在cmd上执行“spark-shell”来验证spark安装，如下图：