📜  在 Windows 上以独立模式安装 Apache Spark(1)

📅  最后修改于: 2023-12-03 15:23:21.153000             🧑  作者: Mango

在 Windows 上以独立模式安装 Apache Spark

Apache Spark 是一个开源的分布式计算系统,可以用于处理大规模数据,可与多个编程语言交互,比如 Java、Python 等。本文将介绍在 Windows 上如何以独立模式安装 Apache Spark。

步骤
  1. 下载所需软件:
    下载 Java SE Development Kit 8(JDK)、Apache Spark 和 Hadoop,并分别安装。可以从以下链接下载:

    • JDK: https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
    • Apache Spark: https://spark.apache.org/downloads.html
    • Hadoop: https://hadoop.apache.org/releases.html

    下载时请注意选择与系统兼容的版本。

  2. 设置环境变量:
    在系统变量中新增以下环境变量:

    • JAVA_HOME:JDK 的安装路径(例如:C:\Program Files\Java\jdk1.8.0_301)
    • SPARK_HOME:Apache Spark 的安装路径(例如:C:\spark-3.2.0-bin-hadoop3.2)

    在系统变量中找到 Path 变量,编辑并在末尾加上:
    %JAVA_HOME%\bin;%SPARK_HOME%\bin;%SPARK_HOME%\sbin

  3. 配置 Hadoop:
    将 Hadoop 的 bin 目录下的 winutils.exe 文件复制到 Spark 安装目录下的 bin 目录中。如果没有 Hadoop,可以从 https://github.com/steveloughran/winutils 下载对应的 winutils.exe 文件。

  4. 启动 Spark:
    打开 cmd 命令行窗口,进入 Spark 安装目录的 bin 目录下,运行以下命令启动 Spark:

    spark-shell
    

    如果一切正常,会弹出 Spark 的交互式环境。

总结

本文介绍了在 Windows 上以独立模式安装 Apache Spark 的步骤,包括下载所需软件、设置环境变量、配置 Hadoop 和启动 Spark。通过这些操作,程序员可以在本地 Windows 环境中使用 Apache Spark 进行大规模数据处理。