📌  相关文章
📜  ZS Associates 数据科学助理面试经验

📅  最后修改于: 2021-11-18 01:33:08             🧑  作者: Mango

ZS Associates是最好的咨询公司之一,它也拥有一支优秀的数据科学家团队。 ZS 的主要客户是制药公司,但也包括其他领域。 ZS 的顾问角色遵循以下层次结构:

  1. 联系
  2. 助理顾问
  3. 顾问
  4. 经理

与 ZS 合作是我在大学时的目标。我申请了 DAA(决策分析)角色,但当时无法破解。 ZS 为数据科学助理 (DSA)职位招聘新生和有经验的入门级候选人。当我开始研究机器学习和数据科学时,我列出了我想成为其中一员的目标公司名单。 ZS 是考虑其职业道德以及如何对待员工的其中之一。

申请流程:我最初于 2020 年 3 月申请了 DSA 角色。我没有人要求推荐,所以我直接在他们的网站上申请。申请的第一步是筛选简历。因此,请确保简历与您申请的工作相符。我很快也会写一篇关于简历写作的博客。回到正题,在我的简历入围后,我收到了在 Hackerearth 上提交机器学习测试的邀请。

我提交了测试,但在锁定发生后不久,ZS 冻结了招聘!这对我来说很糟糕,但无论如何我都在不断地扩展我的技能。

快进到 2020 年 10 月,ZS 在时隔 6 个月后再次开始招聘。我再次申请并接到再次提交测试的电话。整个过程包括3轮,都是淘汰赛。

第 1 轮(机器学习挑战赛):第一轮是解决机器学习问题并将预测 CSV 与源代码一起提交。我遇到的 ML 问题是一个文本分类问题,其中包含来自制药公司工作门户的工作描述。我的任务是创建一个机器学习模型,该模型接收工作描述文本并预测 2 个目标:工作类型和工作类别。提交将是一个包含对测试数据的预测的 CSV 文件。

问题和方法:工作类型由 6 个类别组成,工作类别由 11 个类别组成。本质上,这是一个多类分类问题,有 2 个目标。我做了以下步骤来解决问题并提交解决方案和预测:

  1. 数据理解
  2. EDA
  3. 文本预处理
  4. 代币化
  5. 词干提取/词形还原
  6. 词向量化和使用 Word2Vec 创建嵌入
  7. 造型
  8. 超参数调优
  9. 获取对测试数据的预测
  10. 保存并提交源代码和 CSV

我有将近 2.5 天的时间在 HackerEarth 上完成这项挑战。我提交了解决方案并交叉手指。

第 2 轮(案例汇报):在提交第 1 轮问题后 4-5 天,我接到了 HR 关于第二轮的电话。这一轮是对 ML 挑战和我的解决方案的技术讨论。我不得不制作一个PPT,描述我所做的步骤,得到的结果,以及源代码。

面试在 Zoom 上安排了 1 小时,需要我分享我的屏幕并向他们展示我的解决方案。面试开始了,我通过演示逐步向他们描述了整个解决方案。

讨论:从头到尾看完我的介绍后,几乎没有人问我任何问题。我认为这很容易!但事实并非如此。一旦我解释完解决方案,他们就开始问我关于我从第一步开始的方法的问题。其中一些是:

  1. 你为什么不做更多的EDA?你还能做什么?
  2. 你忽略了单词的重要性。您可以通过什么方式分析重要性一词并为其添加另一个功能?
  3. 第一个目标的类别不平衡。你是怎么处理的?
  4. 你做了什么所有的特征工程?
  5. 您从文本中删除了所有数值。难道工作描述中带有日期等数值意味着这是实习或类似的事情吗?
  6. 您是否想到了比删除所有非字母值更好的方法?
  7. 你使用了词干提取。你为什么不使用词形还原?什么时候词形还原比词干更有用,反之亦然?
  8. 您使用 Word2Vec 使用了词嵌入。它是预先训练过的还是你用这些数据训练过的?你不认为预先训练好的嵌入会做得更好吗?
  9. 您是否使用了其他技术,例如词袋、TF-IDF、N-gram 等?他们表现如何?
  10. 您将句子中所有单词的词向量求平均值以形成完整的特征向量。你不认为这会导致信息丢失吗?你在这里可以使用什么更好的方法?
  11. 您尝试运行了哪些所有模型,结果如何?
  12. 你也用过深度学习吗?你不认为深度学习可以取得更好的结果吗?
  13. 您认为如何改进这些指标?目标职位类别得分低的原因是什么?

回答了以上大部分问题后,我已经筋疲力尽了!我认为我可以用我的解决方案做得更好,并尝试了更多的技术来获得更好的结果。尽管如此,我再次交叉手指,希望能接到第三轮的电话。

第三轮(技术+适应轮):第三轮也是最后一轮是技术轮,我认为这将是我的简历、项目和技能。然而,面试官有不同的计划。

技术面试:面试官问我机器学习的强项,我回答是NLP。他首先给了我一个场景,我们有一个客户,他拥有电子邮件的文本数据,这些数据是客户对其产品的反馈。他从完整的数据科学生命周期开始,一步一步走到最后。

  1. 我们拥有的数据没有标记,我们希望根据它所属的部门和它的产品将其分为不同的类别。你将如何进行?
  2. 贴上标签后,您将如何对其进行清洁和预处理?
  3. 数据干净后,您将采取什么下一步来分析它并添加特征?
  4. 你将如何矢量化它?你知道的所有方法是什么?
  5. 您认为数据可能存在偏差吗?怎么解决?
  6. 下一步会是什么?您将如何确保拥有最佳模型?
  7. 如何减少训练时间?
  8. 一旦模型最终确定,将如何进行部署,以及需要注意什么?
  9. 再培训将如何以及如何进行?
  10. 聚类的类型有哪些?
  11. 线性模型如何做出假设?它的缺点是什么?
  12. 合奏如何运作?
  13. 您使用过的任何云平台? Azure 包含哪些所有元素?
  14. 在回归分析中,如何判断一个特征是否重要?

他又问了几个关于统计和机器学习概念的问题。他还深入研究了深度学习和 CNN。总的来说,我回答了他向我提出的大部分问题。

我问了他一些关于那里的工作、客户和涉及的不同领域的问题,他亲切地回答了这些问题。

在最后一轮进行得很顺利之后,我现在对我的申请非常有信心。手指再次交叉。

Confirmation & Offer Letter:终于等到了HR的确认电话的那一刻,我很高兴!几个月的努力和坚持终于带来了色彩。几天后,我收到了offer letter并欣然接受了。这个过程不可能更顺畅和完美。努力是有回报的!

我收到了来自社区的大量关于我的面试经历的请求,我认为这个博客会公平对待所有人。我很快就会写关于简历准备和求职策略的博客。