VectorIndexer pyspark - Python 代码示例

📌 相关文章

删除列 pyspark - Python 代码示例
删除列 pyspark - Python (1)
创建表 pyspark sql - Python 代码示例
创建数据框 pyspark - Python 代码示例
pyspark 显示所有值 - Python 代码示例
缓存 pyspark - Python 代码示例
pyspark 会话 - Python 代码示例
创建表 pyspark sql - Python (1)
pyspark drop - Python 代码示例
pyspark 中的类型 - 任何代码示例
pyspark concat 列 - Python 代码示例
pyspark 选择列 - 任何代码示例
选择 n 行 pyspark - 任何代码示例
创建数据框 pyspark - Python (1)
pyspark 包含 - 任何代码示例
选择列 pyspark - 无论代码示例
pyspark 减少列表 - Python 代码示例
安装 pyspark - Shell-Bash 代码示例
pyspark 中的类型 (1)
选择列 pyspark (1)
pyspark 显示所有值 - Python (1)
缓存 pyspark - Python (1)
如何迭代 pyspark 数据框 - Python 代码示例
pyspark 包含 (1)
pyspark 会话 - Python (1)
pyspark 导入字符串类型 - Python 代码示例
PySpark教程
检查 null 所有列 pyspark - Python 代码示例
PySpark-简介

📜 VectorIndexer pyspark - Python 代码示例

📅 最后修改于: 2022-03-11 14:46:41.903000 🧑 作者: Mango

代码示例1

from pyspark.ml import Pipeline
from pyspark.ml.regression import LinearRegression
from pyspark.ml.feature import VectorIndexer
from pyspark.ml.evaluation import RegressionEvaluator

# Automatically identify categorical features, and index them.
# We specify maxCategories so features with > 4 distinct values are treated as continuous.

featureIndexer = VectorIndexer(inputCol="features", \
                               outputCol="indexedFeatures",\
                               maxCategories=4).fit(transformed)

data = featureIndexer.transform(transformed)