在 Windows 上以独立模式安装 Apache Spark(1) - 芒果文档

📌 相关文章

📜 在 Windows 上以独立模式安装 Apache Spark(1)

📅 最后修改于: 2023-12-03 15:23:21.153000 🧑 作者: Mango

在 Windows 上以独立模式安装 Apache Spark

Apache Spark 是一个开源的分布式计算系统，可以用于处理大规模数据，可与多个编程语言交互，比如 Java、Python 等。本文将介绍在 Windows 上如何以独立模式安装 Apache Spark。

步骤

下载所需软件：
下载 Java SE Development Kit 8（JDK）、Apache Spark 和 Hadoop，并分别安装。可以从以下链接下载：
- JDK: https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
- Apache Spark: https://spark.apache.org/downloads.html
- Hadoop: https://hadoop.apache.org/releases.html
下载时请注意选择与系统兼容的版本。
设置环境变量：
在系统变量中新增以下环境变量：
- JAVA_HOME：JDK 的安装路径（例如：C:\Program Files\Java\jdk1.8.0_301）
- SPARK_HOME：Apache Spark 的安装路径（例如：C:\spark-3.2.0-bin-hadoop3.2）
在系统变量中找到 Path 变量，编辑并在末尾加上：
%JAVA_HOME%\bin;%SPARK_HOME%\bin;%SPARK_HOME%\sbin
配置 Hadoop：
将 Hadoop 的 bin 目录下的 winutils.exe 文件复制到 Spark 安装目录下的 bin 目录中。如果没有 Hadoop，可以从 https://github.com/steveloughran/winutils 下载对应的 winutils.exe 文件。
启动 Spark：
打开 cmd 命令行窗口，进入 Spark 安装目录的 bin 目录下，运行以下命令启动 Spark：
```
spark-shell
```
如果一切正常，会弹出 Spark 的交互式环境。

总结

本文介绍了在 Windows 上以独立模式安装 Apache Spark 的步骤，包括下载所需软件、设置环境变量、配置 Hadoop 和启动 Spark。通过这些操作，程序员可以在本地 Windows 环境中使用 Apache Spark 进行大规模数据处理。