📝 PySpark教程
13篇技术文档📅  最后修改于: 2020-11-06 05:14:33        🧑  作者: Mango
Apache Spark用Scala编程语言编写。为了支持带有Spark的Python ,Apache Spark社区发布了一个工具PySpark。使用PySpark,您还可以使用Python编程语言来处理RDD。正是由于有了一个名为Py4j的库,他们才能够实现这一目标。这是一个入门教程,涵盖了数据驱动文档的基础知识,并说明了如何处理其各种组件和子组件。本教程是为渴望在编程语言和实时处理框架上发展...
📅  最后修改于: 2020-11-06 05:14:49        🧑  作者: Mango
在本章中,我们将熟悉Apache Spark是什么以及PySpark是如何开发的。Spark –概述Apache Spark是一个闪电般的快速实时处理框架。它进行内存计算以实时分析数据。由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能,因此它成为了现实。因此,引入了Apache Spark,因为它可以实时执行流处理,还可以处理批处理。除了实时和批处理之外,Apac...
📅  最后修改于: 2020-11-06 05:15:06        🧑  作者: Mango
在本章中,我们将了解PySpark的环境设置。注-这是考虑到您的计算机上已安装Java和Scala。现在让我们通过以下步骤下载并设置PySpark。步骤1-转到Apache Spark官方下载页面,并在此处下载最新版本的Apache Spark。在本教程中,我们使用spark-2.1.0-bin-hadoop2.7。步骤2-现在,解压缩下载的Spark tar文件。默认情况下,它将下载到“下载”目...
📅  最后修改于: 2020-11-06 05:15:32        🧑  作者: Mango
SparkContext是任何Spark功能的入口点。当我们运行任何Spark应用程序时,将启动一个驱动程序,该驱动程序具有主要函数,并且您的SparkContext在此处启动。然后,驱动程序在工作者节点上的执行程序内部运行操作。SparkContext使用Py4J启动JVM并创建JavaSparkContext。默认情况下,PySpark的SparkContext可以作为‘sc’使用,因此创建新...
📅  最后修改于: 2020-11-06 05:16:16        🧑  作者: Mango
现在我们已经在系统上安装并配置了PySpark,我们可以在Apache Spark上使用Python进行编程了。但是,在这样做之前,让我们了解Spark-RDD中的基本概念。RDD代表“弹性分布式数据集”,它们是在多个节点上运行和操作以在集群上进行并行处理的元素。 RDD是不可变的元素,这意味着一旦创建RDD,就无法更改它。 RDD也是容错的,因此,如果发生任何故障,它们会自动恢复。您可以对这些R...
📅  最后修改于: 2020-11-06 05:16:38        🧑  作者: Mango
对于并行处理,Apache Spark使用共享变量。当驱动程序将任务发送到群集上的执行程序时,共享变量的副本将出现在群集的每个节点上,以便可以将其用于执行任务。Apache Spark支持两种类型的共享变量-广播累加器让我们详细了解它们。广播广播变量用于保存所有节点上的数据副本。此变量缓存在所有计算机上,而不在具有任务的计算机上发送。以下代码块包含PySpark的Broadcast类的详细信息。以...
📅  最后修改于: 2020-11-06 05:16:56        🧑  作者: Mango
要在本地/集群上运行Spark应用程序,您需要设置一些配置和参数,这正是SparkConf的帮助。它提供了运行Spark应用程序的配置。以下代码块包含PySpark的SparkConf类的详细信息。最初,我们将使用SparkConf()创建一个SparkConf对象,该对象还将从spark。*Java系统属性中加载值。现在,您可以使用SparkConf对象设置不同的参数,它们的参数将优先于系统属性...
📅  最后修改于: 2020-11-06 05:17:10        🧑  作者: Mango
在Apache Spark中,您可以使用sc.addFile(sc是默认的SparkContext)上载文件,并使用SparkFiles.get获取工作线程的路径。因此,SparkFiles解析通过SparkContext.addFile()添加的文件的路径。SparkFiles包含以下类方法-get(文件名)getrootdirectory()让我们详细了解它们。get(文件名)它指定通过Spa...
📅  最后修改于: 2020-11-06 05:17:30        🧑  作者: Mango
StorageLevel决定应如何存储RDD。在Apache Spark中,StorageLevel决定应将RDD存储在内存中还是应将其存储在磁盘上,或者两者都确定。它还决定是否序列化RDD以及是否复制RDD分区。以下代码块具有StorageLevel的类定义-现在,要确定RDD的存储,有不同的存储级别,如下所示:DISK_ONLY= StorageLevel(真,假,假,假,1)DISK_ONL...
📅  最后修改于: 2020-11-06 05:17:54        🧑  作者: Mango
Apache Spark提供了一个称为MLlib的机器学习API。 PySpark也具有Python的这种机器学习API。它支持不同种类的算法,如下所述-mllib.classification–spark.mllib软件包支持用于二进制分类,多类分类和回归分析的各种方法。分类中最流行的算法是随机森林,朴素贝叶斯,决策树等。mllib.clustering-聚类是一个无监督的学习问题,您可以根据相...
📅  最后修改于: 2020-11-06 05:18:10        🧑  作者: Mango
序列化用于Apache Spark上的性能调整。通过网络发送或写入磁盘或保留在内存中的所有数据都应进行序列化。序列化在昂贵的操作中起着重要的作用。PySpark支持自定义序列化器以进行性能调整。 PySpark支持以下两个序列化器-元帅使用Python的Marshal序列化器序列化对象。此序列化程序比PickleSerializer快,但支持较少的数据类型。PickleSerializer使用Py...
📅  最后修改于: 2020-11-06 05:18:25        🧑  作者: Mango
以下资源包含有关PySpark的其他信息。请使用它们来获得有关此方面的更深入的知识。PySpark上的有用链接PySpark Wiki–PySpark的维基百科参考PySpark上的有用书籍要在此页面上注册您的网站,请发送电子邮件至contact@tutorialspoint.com...
📅  最后修改于: 2020-11-06 05:18:37        🧑  作者: Mango
Apache Spark用Scala编程语言编写。为了支持带有Spark的Python ,Apache Spark社区发布了一个工具PySpark。使用PySpark,您还可以使用Python编程语言来处理RDD。正是由于有了一个名为Py4j的库,他们才能够实现这一目标。这是一个入门教程,涵盖了数据驱动文档的基础知识,并说明了如何处理其各种组件和子组件。...