📅  最后修改于: 2020-11-06 05:16:56             🧑  作者: Mango
要在本地/集群上运行Spark应用程序,您需要设置一些配置和参数,这正是SparkConf的帮助。它提供了运行Spark应用程序的配置。以下代码块包含PySpark的SparkConf类的详细信息。
class pyspark.SparkConf (
loadDefaults = True,
_jvm = None,
_jconf = None
)
最初,我们将使用SparkConf()创建一个SparkConf对象,该对象还将从spark。* Java系统属性中加载值。现在,您可以使用SparkConf对象设置不同的参数,它们的参数将优先于系统属性。
在SparkConf类中,有支持链接的setter方法。例如,您可以编写conf.setAppName(“ PySpark App”)。setMaster(“ local”) 。一旦将SparkConf对象传递给Apache Spark,任何用户都无法对其进行修改。
以下是SparkConf的一些最常用属性-
set(key,value) -设置配置属性。
setMaster(value) -设置主URL。
setAppName(value) -设置应用程序名称。
get(key,defaultValue = None) -获取密钥的配置值。
setSparkHome(value) -设置工作节点上的Spark安装路径。
让我们考虑以下在PySpark程序中使用SparkConf的示例。在此示例中,我们将spark应用程序名称设置为PySpark App ,并将spark应用程序的主URL设置为→ spark:// master:7077 。
下面的代码块带有这些行,当它们添加到Python文件中时,它设置了运行PySpark应用程序的基本配置。
---------------------------------------------------------------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)
---------------------------------------------------------------------------------------