Apache Spark概述 - 芒果文档

📌 相关文章

📜 Apache Spark概述

📅 最后修改于: 2021-08-24 04:34:12 🧑 作者: Mango

在本文中，我们将讨论Apache Spark的入门部分，以及spark的历史以及为何spark重要。让我们一一讨论。

根据Databrick的定义，“ Apache Spark是一个闪电般的统一分析引擎，适用于大数据和机器学习。它最初是2009年在加州大学伯克利分校开发的。”

Databricks是包括Yahoo!在内的Spark的主要贡献者之一。英特尔等。Apache spark是用于数据处理的最大的开源项目之一。它是一种快速的内存数据处理引擎。

火花的历史：
Spark于2009年在加州大学伯克利分校的研发实验室开始，该实验室现在称为AMPLab。然后在2010年，Spark在BSD许可下成为开源。此后，Spark于2013年6月转移到ASF(Apache软件基金会)。Spark研究人员以前从事Hadoop map-reduce的工作。在加州大学伯克利分校的研发实验室中，他们观察到这对于迭代和交互式计算工作效率低下。在Spark中，它支持内存中存储和高效的故障恢复，Spark的设计旨在快速进行交互式查询和迭代算法。在下面给出的图中，我们将描述Spark的历史。我们来看一下。

Spark的特点：

Apache Spark可用于执行批处理。
Apache Spark还可以用于执行流处理。对于流处理，我们使用的是Apache Storm / S4。
它可以用于交互处理。以前，我们使用Apache Impala或Apache Tez进行交互处理。
Spark对执行图形处理也很有用。 Neo4j / Apache Graph用于图形处理。
Spark可以实时和批处理模式处理数据。

因此，可以说Spark是用于数据处理的功能强大的开源引擎。

参考：
Apache Spark参考