📅  最后修改于: 2023-12-03 15:04:02.221000             🧑  作者: Mango
PySpark-MLlib是一个基于Apache Spark的Python机器学习库,提供了丰富的机器学习算法和工具,旨在简化大规模数据处理和模型训练的过程。它结合了Spark的分布式计算能力和Python的易用性,使得开发人员能够快速构建和部署大规模机器学习模型。
pip install pyspark
from pyspark.sql import SparkSession
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator
spark = SparkSession.builder.appName("PySpark-MLlib").getOrCreate()
data = spark.read.csv("data.csv", header=True, inferSchema=True)
# 将目标变量转换为数值
indexer = StringIndexer(inputCol="label", outputCol="label_index")
data = indexer.fit(data).transform(data)
# 合并特征列为一个向量
assembler = VectorAssembler(inputCols=["feature1", "feature2"], outputCol="features")
data = assembler.transform(data)
train_data, test_data = data.randomSplit([0.7, 0.3], seed=42)
# 初始化逻辑回归模型
lr = LogisticRegression()
# 训练模型
model = lr.fit(train_data)
# 在测试集上进行预测
predictions = model.transform(test_data)
# 评估模型性能
evaluator = BinaryClassificationEvaluator(labelCol="label_index")
accuracy = evaluator.evaluate(predictions)
print("Accuracy: {}".format(accuracy))
PySpark-MLlib是一个功能强大的Python机器学习库,通过结合Spark的分布式计算和Python的易用性,可以快速构建和部署大规模机器学习模型。它提供了丰富的机器学习算法和工具,使得开发人员能够轻松地进行数据处理、特征工程、模型训练和评估等任务。无论是处理大数据集还是快速迭代实验,PySpark-MLlib都是程序员的理想选择。