📜  大数据分析-问题定义

📅  最后修改于: 2020-12-02 06:38:48             🧑  作者: Mango


通过本教程,我们将开发一个项目。本教程的后续各章在“小型项目”部分中讨论了较大项目的一部分。认为这是一个实用的教程部分,它将提供对实际问题的了解。在这种情况下,我们将从项目的问题定义开始。

项目简介

该项目的目标是开发一种机器学习模型,以使用其履历(CV)文本作为输入来预测人们的时薪。

使用上面定义的框架,很容易定义问题。我们可以将X = {x 1 ,x 2 ,…,x n }定义为用户的简历,其中每个功能都可以以最简单的方式表示该单词出现的次数。然后,响应才是真正有价值的,我们正在尝试以美元为单位预测个人的时薪。

这两个考虑因素足以得出结论,可以使用监督回归算法解决存在的问题。

问题定义

问题定义可能是大数据分析管道中最复杂,最被忽略的阶段之一。为了定义数据产品可以解决的问题,必须具备经验。在此阶段,大多数数据科学家有抱负的经验很少或没有经验。

大多数大数据问题可以按以下方式分类-

  • 监督分类
  • 监督回归
  • 无监督学习
  • 学习排名

现在让我们详细了解这四个概念。

监督分类

给定特征矩阵X = {x 1 ,x 2 ,…,x n },我们开发了一个模型M来预测定义为y = {c 1 ,c 2 ,…,c n }的不同类别。例如:给定保险公司中客户的交易数据,可以开发一个模型来预测客户是否流失。后者是一个二进制分类问题,其中存在两个类或目标变量:搅动和不搅动。

其他问题涉及预测一个以上的类,我们可能会对数字识别感兴趣,因此响应向量将定义为: y = {0,1,2,3,4,5,6,7,8,9} ,最先进的模型将是卷积神经网络,特征矩阵将定义为图像的像素。

监督回归

在这种情况下,问题的定义与前面的示例非常相似。差异取决于响应。在回归问题中,响应y∈ℜ,这意味着响应是实数值。例如,我们可以开发一个模型来预测给定其简历的个人的时薪。

无监督学习

管理人员通常渴望获得新的见解。细分模型可以提供这种见解,以便营销部门为不同细分市场开发产品。开发细分模型而不是思考算法的一种好方法是选择与所需细分相关的特征。

例如,在一家电信公司中,按照客户的手机使用情况对其进行细分很有趣。这将涉及忽略与分割目标无关的特征,而仅包括那些与分割目标无关的特征。在这种情况下,这将选择功能,例如一个月中使用的SMS数量,入站和出站分钟数等。

学习排名

该问题可以看作是回归问题,但是它具有特定的特征,值得单独处理。该问题涉及给定的文档集合,我们试图在给定查询的情况下找到最相关的顺序。为了开发一种监督学习算法,在给定查询的情况下,需要标记排序的相关性。

值得注意的是,为了开发监督学习算法,需要标记训练数据。这意味着,为了训练一个模型,该模型将例如识别图像中的数字,我们需要手工标记大量示例。有一些Web服务可以加快此过程,并且通常用于此任务,例如Amazon Mechanical Turk。事实证明,学习算法在提供更多数据时会提高其性能,因此在监督学习中标记大量的示例实际上是必需的。