📅  最后修改于: 2020-11-08 14:12:45             🧑  作者: Mango
Apache Spark用Scala编程语言编写。为了支持带有Spark的Python ,Apache Spark社区发布了一个工具PySpark。使用PySpark,您还可以使用Python编程语言来处理RDD。正是由于有了一个名为Py4j的库,他们才能够实现这一目标。这是一个入门教程,涵盖了数据驱动文档的基础知识,并说明了如何处理其各种组件和子组件。
本教程是为渴望在编程语言和实时处理框架上发展职业的专业人员准备的。本教程旨在使读者熟悉PySpark及其各种模块和子模块。
在继续本教程中给出的各种概念之前,假定读者已经知道什么是编程语言和框架。除此之外,如果读者具有Apache Spark,Apache Hadoop,Scala编程语言,Hadoop分布式文件系统(HDFS)和Python的丰富知识,这将非常有帮助。