📜  Paytm 数据工程师面试经验(2 年经验)

📅  最后修改于: 2022-05-13 01:54:17.379000             🧑  作者: Mango

Paytm 数据工程师面试经验(2 年经验)

第 1 轮(技术)[1 小时]:

  • 介绍
  • 项目讨论。
  • 一些 SQL 问题从易到难。像
    • 从表中删除重复项。
    • 每个分区中的第 n 个高度项。
    • 在一张表中给出 IPL 球队的名称,您必须在某些条件下找到他们之间要进行的比赛组合。 = 使用自连接
    • 在表上运行聚合 = 使用具有范围的窗口函数
  • 一些热身编码问题:
    • 字符串中每个单词的频率。
    • 子数组和等于 K。
    • 以排序方式将 K 个排序列表合并到单个列表中。
  • 简单的数据结构问题:
    • 在不使用额外空间的情况下反转堆栈。
  • spark中关于优化技术的一些讨论。
  • Python集合。

第 2 轮(技术)[1.5 小时]:

  • 简单的介绍。
  • 项目讨论和您对项目的贡献。
  • SQL问题:
    • 根据借方和贷方金额列从客户表中设计银行对账单。
  • 热身编码问题:
    • 要追加多少个字符,以生成字符串回文。
    • 电子邮件屏蔽。
  • 数据结构问题:
    • 将两个由链表表示的数字相加
    • 将二叉树转换为其镜像树。
    • 树的底视图。
  • 一些与Hive和 Spark 有关的问题。
    • 火花架构。
    • 我有一个文件,其中包含名称、地址、分数作为输入,在 spark 中读取文件并验证字段以得出错误分数假设名称是否由数字组成——如果地址长度 < 5,则错误为 10%,则错误为 15%如果分数小于 > 40,那么如果记录有 >= 20% 的错误写入错误文件,则错误为 20%,否则写入成功文件。
    • 在 Spark 和Hive中加入优化。
    • 缓慢变化的维度及其类型。
    • 一些与文件格式和压缩技术有关的问题。

第 3 轮(技术 + 管理)[1.5 小时]:

  • 简单的介绍。
  • 告诉我一些简历中没有写的东西。
  • 项目架构讨论和一些交叉问题,为什么要使用这项技术。
  • 与集群配置相关的一些问题。
  • Spark 上的一些基于情境的问题。
    • 如果火花作业需要 5 分钟才能完成,几个月后需要 2 小时。完成,那么可能是什么原因。
    • 重新分区和合并之间的区别:在这种情况下,您将使用重新分区来减少分区的数量。
    • 您在项目中面临哪些挑战。
    • 如果您必须在集群上处理 500 GB 数据,那么您将拥有 64 GB 内存和 16 个内核,那么问题是您将使用多少个执行器来执行此 spark 作业,以及每个执行器的配置是什么。
    • 在这种情况下,您将使用数据仓库和数据湖。
    • 您将使用哪种数据结构来存储 aadhar 卡数据。
  • DSA的一个设计问题:
    • 设计蛇梯。
      • 找到最小的骰子需要赢得,如果在接受输入的同时你也接受梯子和蛇的位置索引。
      • 您将选择哪种数据结构来解决这个问题。
  • 一个谜题:
    • 赛道上有 5 条车道。需要找出总共 25 匹马中最快的 3 匹。找出要进行的最少比赛次数,以确定最快的三匹。

在那之后,人力资源讨论通过电话进行。

以上就是我在面试过程中的经历。希望这会帮助你。

祝一切顺利!!