PySpark-简介 - 芒果文档

📌 相关文章

📜 PySpark-简介

📅 最后修改于: 2020-11-06 05:14:49 🧑 作者: Mango

在本章中，我们将熟悉Apache Spark是什么以及PySpark是如何开发的。

Spark –概述

Apache Spark是一个闪电般的快速实时处理框架。它进行内存计算以实时分析数据。由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能，因此它成为了现实。因此，引入了Apache Spark，因为它可以实时执行流处理，还可以处理批处理。

除了实时和批处理之外，Apache Spark还支持交互式查询和迭代算法。 Apache Spark有自己的集群管理器，可以在其中托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用HDFS (Hadoop分布式文件系统)进行存储，并且还可以在YARN上运行Spark应用程序。

PySpark –概述

Apache Spark用Scala编程语言编写。为了通过Spark支持Python ，Apache Spark社区发布了工具PySpark。使用PySpark，您还可以使用Python编程语言来处理RDD 。正是由于有了一个名为Py4j的库，他们才能够实现这一目标。

PySpark提供了PySpark Shell ，该Shell将Python API链接到spark核心并初始化Spark上下文。如今，大多数数据科学家和分析专家都使用Python，因为它具有丰富的库集。将Python与Spark集成是他们的福音。