📅  最后修改于: 2023-12-03 15:23:21.153000             🧑  作者: Mango
Apache Spark 是一个开源的分布式计算系统,可以用于处理大规模数据,可与多个编程语言交互,比如 Java、Python 等。本文将介绍在 Windows 上如何以独立模式安装 Apache Spark。
下载所需软件:
下载 Java SE Development Kit 8(JDK)、Apache Spark 和 Hadoop,并分别安装。可以从以下链接下载:
下载时请注意选择与系统兼容的版本。
设置环境变量:
在系统变量中新增以下环境变量:
JAVA_HOME
:JDK 的安装路径(例如:C:\Program Files\Java\jdk1.8.0_301) SPARK_HOME
:Apache Spark 的安装路径(例如:C:\spark-3.2.0-bin-hadoop3.2) 在系统变量中找到 Path
变量,编辑并在末尾加上:
%JAVA_HOME%\bin;%SPARK_HOME%\bin;%SPARK_HOME%\sbin
配置 Hadoop:
将 Hadoop 的 bin
目录下的 winutils.exe 文件复制到 Spark 安装目录下的 bin 目录中。如果没有 Hadoop,可以从 https://github.com/steveloughran/winutils 下载对应的 winutils.exe 文件。
启动 Spark:
打开 cmd 命令行窗口,进入 Spark 安装目录的 bin 目录下,运行以下命令启动 Spark:
spark-shell
如果一切正常,会弹出 Spark 的交互式环境。
本文介绍了在 Windows 上以独立模式安装 Apache Spark 的步骤,包括下载所需软件、设置环境变量、配置 Hadoop 和启动 Spark。通过这些操作,程序员可以在本地 Windows 环境中使用 Apache Spark 进行大规模数据处理。