📜  Apache Spark 概述

📅  最后修改于: 2021-09-09 16:20:15             🧑  作者: Mango

在本文中,我们将讨论 Apache Spark 的介绍部分,以及 Spark 的历史,以及为什么 Spark 很重要。让我们一一讨论。

根据 Databrick 的定义,“Apache Spark 是用于大数据和机器学习的闪电般快速的统一分析引擎。它最初是在 2009 年在加州大学伯克利分校开发的。”

Databricks 是 Spark 的主要贡献者之一,包括 yahoo! Intel 等。Apache spark 是最大的数据处理开源项目之一。它是一个快速的内存数据处理引擎。

火花的历史:
Spark 于 2009 年在加州大学伯克利分校的研发实验室开始,现在被称为 AMPLab。然后在 2010 年,spark 在 BSD 许可下成为开源。之后,spark 于 2013 年 6 月转移到 ASF(Apache 软件基金会)。 Spark 研究人员之前致力于 Hadoop map-reduce。在加州大学伯克利分校的研发实验室,他们观察到这对于迭代和交互式计算工作效率低下。在 Spark 中,为了支持内存存储和高效的故障恢复,Spark 被设计为快速进行交互式查询和迭代算法。在下面给出的图表中,我们将描述 Spark 的历史。我们来看一下。

火花的特点:

  • Apache spark 可以用来执行批处理。
  • Apache spark 也可以用来执行流处理。对于流处理,我们使用了 Apache Storm / S4。
  • 它可用于交互式处理。以前我们使用 Apache Impala 或 Apache Tez 进行交互式处理。
  • Spark 也可用于执行图形处理。 Neo4j / Apache Graph 用于图形处理。
  • Spark 可以实时和批量处理数据。

因此,我们可以说 Spark 是一个强大的数据处理开源引擎。

参考 :
Apache Spark 参考