📜  Apache Spark 的组件

📅  最后修改于: 2022-05-13 01:55:38.387000             🧑  作者: Mango

Apache Spark 的组件

Spark是一个集群计算系统。与其他集群计算系统(如 Hadoop)相比,它更快。它在Python、Scala 和Java中提供高级 API。并行作业很容易在 Spark 中编写。在本文中,我们将讨论 Apache Spark 的不同组件。

Spark 处理大量数据集,是当前最活跃的 Apache 项目。 Spark 是用 Scala 编写的,并提供Python、Scala、 Java和 R 的 API。Apache Spark 最重要的特性是它的内存集群计算,它扩展了数据处理的速度。 Spark 是一个额外的通用和更快的处理平台。它帮助我们以比 Hadoop 相对快的速度运行程序(即)在内存中快一百倍,甚至在磁盘上也快十倍。火花的主要特点是:

  1. 多语言支持: Apache Spark 支持多种语言;它提供用 Scala、 Java、 Python或 R 编写的 API。它允许用户用多种语言编写应用程序。
  2. 速度快: Apache Spark 最重要的特性是它的处理速度。它允许应用程序在 Hadoop 集群上运行,在内存上快一百倍,在磁盘上快十倍。
  3. 随处运行: Spark 将在多个平台上运行,同时不会提高处理速度。它将在 Hadoop、Kubernetes、Mesos、Standalone 甚至在云中运行。
  4. 通用性:它由 Spark Streaming 和 GraphX 旁边的大量机器学习库(即 MLlib、DataFrames 和 SQL)提供支持。允许混合使用与应用程序相关联的库。在同一个应用程序中混合流、SQL 和复杂分析的特性使 Spark 成为一个通用框架。
  5. 高级分析: Apache Spark 还支持前面提到的“Map”和“Reduce”。但是,在 MapReduce 方面,它支持流数据、SQL 查询、图算法和机器学习。因此,Apache Spark 可用于执行高级分析。

Spark的组成部分:

上图说明了所有的火花组件。让我们详细了解每个组件:

  1. Spark Core: Apache Spark 提供的所有功能都建立在最高的 Spark Core 之上。它通过提供内存计算能力来提供速度。 Spark Core 是巨型数据集并行分布式处理的基础。它是基本 I/O 功能的主要支柱,在编程和观察 spark 集群的作用方面具有重要意义。它包含与集群上的调度、分发和监控作业、任务调度、故障恢复相关的所有组件。该组件的功能是:
    1. 它包含 spark 的基本功能。 (任务调度、内存管理、故障恢复、与存储系统交互)。
    2. 定义 RDD 的 API 的主页。
  2. Spark SQL 结构化数据: Spark SQL 组件构建在 Spark 核心之上,用于提供对数据的结构化处理。它提供对一系列数据源的标准访问。它包括Hive、JSON 和 JDBC。它支持通过 SQL 或 Hive 语言查询数据。这也适用于访问结构化和半结构化信息。它还提供跨流数据和历史数据的强大的交互式分析应用程序。 Spark SQL 可能是 spark 中的一个新模块,它将相关进程与 spark 与编程 API 集成在一起。该模块的主要功能是:
    1. 它是一个用于处理结构化数据的 Spark 包。
    2. 它支持多种数据源,包括 hive tablet、parquet、json。
    3. 它允许开发人员将 SQK 与Python、scala 和Java中的 RDD 支持的编程数据操作混合在一起。
  3. Spark Streaming: Spark Streaming 允许实时知识流的可提升、高吞吐量、容错的流处理。 Spark 可以从诸如水槽、TCP 套接字之类的源访问数据。它将运行不同的算法,在其中接收文件系统、数据库和实时仪表板中的数据。 Spark 使用 Micro-batching 进行实时流式传输。微批处理是一种允许方法或任务将流视为一系列小批量信息的技术。因此,火花流将实时数据分组为小批量。它将其传送到批处理系统进行处理。该模块的功能是:
    1. 支持处理实时数据流,例如生产 Web 服务生成的日志文件。
    2. 该模块中定义的 API 与 spark core RDD API 非常相似。
  4. Mlib 机器学习: spark 中的 MLlib 是一个可扩展的机器学习库,包含各种机器学习算法。 MLlib 创建背后的动机是使机器学习的实现变得简单。它包含机器学习库和各种算法的实现。例如,聚类、回归、分类和协同过滤。
  5. GraphX 图形处理:它是图形和图形并行执行的 API。有我们存储数据的网络分析。在图中也可以进行聚类、分类、遍历、搜索和寻路。它通常优化了我们如何在图中表示顶点和边。当顶点和边是原始数据类型时,GraphX 还优化了我们如何表示它们。为了支持图计算,它支持子图、连接顶点和聚合消息等基本操作,以及 Pregel API 的优化变体。

Apache Spark的用途: spark框架的主要应用有:

  1. 系统生成的数据不够一致,无法混合进行分析。为了从系统中获取一致的信息,我们将使用提取、转换和加载等过程,它可以减少时间和成本,因为它们在 spark 中非常有效地实现。
  2. 很难处理像日志文件这样的时间生成数据。 Spark 能够很好地处理信息流和重用操作。
  3. 由于 spark 能够将信息存储在内存中并且可以快速运行连续查询,因此可以直接找出可用于特定类型数据的机器学习算法。