Paytm 数据工程师面试经验(2 年经验)
第 1 轮(技术)[1 小时]:
- 介绍
- 项目讨论。
- 一些 SQL 问题从易到难。像
- 从表中删除重复项。
- 每个分区中的第 n 个高度项。
- 在一张表中给出 IPL 球队的名称,您必须在某些条件下找到他们之间要进行的比赛组合。 = 使用自连接
- 在表上运行聚合 = 使用具有范围的窗口函数
- 一些热身编码问题:
- 字符串中每个单词的频率。
- 子数组和等于 K。
- 以排序方式将 K 个排序列表合并到单个列表中。
- 简单的数据结构问题:
- 在不使用额外空间的情况下反转堆栈。
- spark中关于优化技术的一些讨论。
- Python集合。
第 2 轮(技术)[1.5 小时]:
- 简单的介绍。
- 项目讨论和您对项目的贡献。
- SQL问题:
- 根据借方和贷方金额列从客户表中设计银行对账单。
- 热身编码问题:
- 要追加多少个字符,以生成字符串回文。
- 电子邮件屏蔽。
- 数据结构问题:
- 将两个由链表表示的数字相加
- 将二叉树转换为其镜像树。
- 树的底视图。
- 一些与Hive和 Spark 有关的问题。
- 火花架构。
- 我有一个文件,其中包含名称、地址、分数作为输入,在 spark 中读取文件并验证字段以得出错误分数假设名称是否由数字组成——如果地址长度 < 5,则错误为 10%,则错误为 15%如果分数小于 > 40,那么如果记录有 >= 20% 的错误写入错误文件,则错误为 20%,否则写入成功文件。
- 在 Spark 和Hive中加入优化。
- 缓慢变化的维度及其类型。
- 一些与文件格式和压缩技术有关的问题。
第 3 轮(技术 + 管理)[1.5 小时]:
- 简单的介绍。
- 告诉我一些简历中没有写的东西。
- 项目架构讨论和一些交叉问题,为什么要使用这项技术。
- 与集群配置相关的一些问题。
- Spark 上的一些基于情境的问题。
- 如果火花作业需要 5 分钟才能完成,几个月后需要 2 小时。完成,那么可能是什么原因。
- 重新分区和合并之间的区别:在这种情况下,您将使用重新分区来减少分区的数量。
- 您在项目中面临哪些挑战。
- 如果您必须在集群上处理 500 GB 数据,那么您将拥有 64 GB 内存和 16 个内核,那么问题是您将使用多少个执行器来执行此 spark 作业,以及每个执行器的配置是什么。
- 在这种情况下,您将使用数据仓库和数据湖。
- 您将使用哪种数据结构来存储 aadhar 卡数据。
- DSA的一个设计问题:
- 设计蛇梯。
- 找到最小的骰子需要赢得,如果在接受输入的同时你也接受梯子和蛇的位置索引。
- 您将选择哪种数据结构来解决这个问题。
- 设计蛇梯。
- 一个谜题:
- 赛道上有 5 条车道。需要找出总共 25 匹马中最快的 3 匹。找出要进行的最少比赛次数,以确定最快的三匹。
在那之后,人力资源讨论通过电话进行。
以上就是我在面试过程中的经历。希望这会帮助你。
祝一切顺利!!