数据科学项目范围是一个在新的数据科学项目开始时经常被破坏的主题。这可能是一个巨大的错误,它可能会比您意识到的更危险。如果一个大项目失败,它可能意味着合格数据科学家职业生涯的终结。但在我们切入数据项目范围的实际问题之前,下面有一些建议为您铺平通往实际主题的道路。
1. 提出正确的问题
在应用适当的技术之前提出正确的问题对于完成数据科学工作至关重要。解决数据科学问题的方法是基础。事实上,如果你是一个好奇的人,数据科学适合你,但你需要保护自己免受一些明显的陷阱。
大多数人开始从错误的方面处理数据。他们获取数据集并应用他们最喜欢的工具。结果,您最终会遇到诸如“是”或“否”之类的狭隘问题以及缺乏知识和智力深度的浅薄论据,无法说明可见的内容。
当您获取数据时,您需要对数据结构进行充分的思考,以避免走上通往简单问题和意外结果的徒劳之路。我们需要避免意外的结果,并专注于我们可以从给定的数据集中获得多少知识。
2. 将“领域知识”置于“正确技术”之上
即使作为专业数据,无论您作为数据科学家的职业在技术上有多可行,您也应该始终优先考虑领域知识而不是技术。没有领域知识,您对数据执行的操纵操作将其拟合到模型中以通过钩子或骗子获得输出的努力是徒劳的。选择正确的技术应该在询问正确的问题之后进行。这种心态对于任何数据科学项目的成功都至关重要。然而,精通“领域知识”和“选择正确的技术”在数据科学世界中是非常可取的,但现在您知道优先考虑什么。
作为一名数据科学家,如果你想创造具有持久价值的信息,我们必须达成以下理解:
- 我们同事的需求。
- 工作所采取的形式。
- 我们创建的参数结构。
- 我们“完成”后的事件过程。
为了达到上述目标,我们应该给自己留出思考的空间。在我们陷入以“如何”开头的问题之前,我们应该先考虑“为什么”和“什么”。否则,我们宝贵的时间就会浪费在采取错误的行动上。
处理数据的一个具有挑战性的部分是考虑“结构”,而不是在真空中思考。拥有一个稳固的结构的好处可以防止我们做一些不经意的事情。同时,结构可以让我们分解问题,深入研究问题的所有部分(也称为问题分析)。它使这种方法成为一种出色的问题分析工具。
自古以来,人类就一直在使用结构化来缓解对问题的思考。我们不必重新发明轮子。我们可以修改其他学科的想法,例如社会科学、英语作文哲学和设计,以满足我们的需求,并使我们的专业数据发挥巨大的价值。
为数据项目创建范围
一旦您了解需要用您的数据科学专业知识解决的问题,这是第一步。要找到问题的结构,我们首先必须定义数据问题的范围。范围是围绕一个原因的“故事大纲”。我们正在研究的原因,实际问题以及我们对故事结局的期望。
当我们从事数据科学项目时,即专业环境中的项目,它很可能是更广泛设置的一个组成部分。可能有些人或团队可能会受到项目的影响,或者可能是您团队的一部分。精心布置的范围使我们能够掌握问题的轮廓并促进与利益相关者的沟通。数据项目范围有4 个部分,如下所示:
- 语境
- 需求(项目正试图满足)
- 愿景(成就的)
- 结果
数据项目范围的最终确定导致数据科学团队的对话,利益相关者变得更加方便,想法可以写下来。对于数据问题范围的这五个元素,一个方便的助记符是CoNVO,如Context 、 Needs 、 Vision和Outcome 。
你应该能够与一个聪明的、非技术的外行和一个陌生人进行对话,他或她应该能够在高层次上掌握项目的概念。他或她应该能够理解成就的原因。从本质上讲,没有牢固的结构,没有故事是完整的,数据项目范围也不例外。上述数据项目范围的四个要素适用于任何结构的故事,数据讲故事也是如此。一个很好的建议是,如果您想掌握范围界定数据问题,请练习讲故事。
写下 CoNVO 至关重要。一旦我们将一篇清晰的文章写成几个简单的句子,我们就可以获得数据,阐明我们的理解,并进一步提炼出一些聪明而有用的东西。在这件事上,请注意数据科学是一个迭代过程。
1. 上下文 (Co)
上下文是指与我们一起工作的人的工作以及他们正在执行的工作。沟通是了解人脉的关键,深入了解他们的长期目标是我们的首要目标。上下文有助于建立指导方针,以便对涉及数据的项目做出重大决策。
当新员工、合作伙伴或主管加入组织或组织的使命突然转变时,数据项目期间的上下文可能是动态的。正确阐明组织的目标是获得上下文的重要组成部分。
2. 需求(N)
“需求”是指为实现组织目标而需要确定或理解的事物,因为每个实体在其生命周期中迟早都会面临挑战。数据科学的主要目标是设计创造知识的步骤。可以通过数据的力量来满足的需求就其本质而言是关于知识和技术诀窍的。了解世界某些部分运作的机制是需要提供的。
当我们以书面形式正确地提出需求时,可以通过知识插入我们理解中的所有空洞来改进什么,我们正在朝着正确的方向取得进展,满足我们同事的“需求”。
它包含通过电子表格获得的教导、从工具获得的信息、在制作以前未知的图表之前的预期信息都是“需求”的来源。
三、愿景(五)
当一个数据科学项目启动时,第一步根本不是收集、收集或获取数据。因此,执行转换、测试想法等的后续步骤也是不可能的。您必须首先设想项目并提出一些关键问题,例如我们要去哪里以及实现我们的目标会是什么样子?
数据项目中的愿景可以帮助我们大致了解所获得的目标和最终目标。这种一瞥可能包括一个模型、确定预期结果和目标、我们将要提出的论点大纲,甚至一些问题,以缩小我们对目标的关注。
作为范围界定过程的一部分,提出一个引人注目的愿景最依赖于经验。它的基础是一个人从一个人一生中的先前观察中得出的想法。
4. 结果(O)
最后但并非最不重要的是,在接触数据(收集)之前,您必须考虑数据项目范围的这个因素。作为数据科学家,了解解决方案如何引起变革甚至破坏组织的共鸣。
询问以下关键问题以获得稳定的结果。
- 该解决方案应该如何使用?
- 该解决方案将如何集成到组织中?
- 组织中的谁将执行此集成?
- 谁将使用此解决方案来改变组织?
- 如何衡量解决方案的成功?
结果与愿景不同。愿景侧重于最终将发生的工作形式。结果是实际结果或解决方案。换句话说,当我们完成时会发生什么。通过实现数据项目范围的真正潜力来采用最佳实践是一项关键的数据科学实践。同样,在您接触脏数据并在您承担或注册的每个数据科学项目中取得成功之前,事先了解如何确定步骤的优先级至关重要。