📜  敏捷数据科学-SparkML

📅  最后修改于: 2021-01-23 05:52:54             🧑  作者: Mango


机器学习库也称为“ SparkML”或“ MLLib”,由常见的学习算法组成,包括分类,回归,聚类和协作过滤。

为什么要学习SparkML for Agile?

Spark正在成为构建机器学习算法和应用程序的实际平台。开发人员在Spark上工作,以在Spark框架中以可扩展和简洁的方式实现机器算法。我们将通过该框架学习机器学习的概念,其实用程序和算法。敏捷总是选择一个框架,该框架可以带来短期和快速的结果。

机器学习算法

机器学习算法包括常见的学习算法,例如分类,回归,聚类和协作过滤。

特征

它包括特征提取,变换,降维和选择。

流水线

管道提供了用于构建,评估和调整机器学习管道的工具。

流行算法

以下是一些流行的算法-

  • 基本统计

  • 回归

  • 分类

  • 推荐系统

  • 聚类

  • 降维

  • 特征提取

  • 优化

推荐系统

推荐系统是信息过滤系统的子类,该系统寻求用户对给定项目建议的“评分”和“偏好”的预测。

推荐系统包括各种过滤系统,其使用如下-

协同过滤

它包括基于过去的行为以及其他用户做出的类似决策来构建模型。此特定的过滤模型用于预测用户感兴趣的物品。

基于内容的过滤

它包括过滤项目的离散特性,以便推荐和添加具有相似属性的新项目。

在接下来的章节中,我们将从敏捷方法论的角度着重于使用推荐系统解决特定问题并提高预测性能。