📌 相关文章

📜 Paytm 数据工程师面试经验(2 年经验)

📅 最后修改于: 2022-05-13 01:54:17.379000 🧑 作者: Mango

Paytm 数据工程师面试经验（2 年经验）

第 1 轮（技术）[1 小时]：

介绍
项目讨论。
一些 SQL 问题从易到难。像
- 从表中删除重复项。
- 每个分区中的第 n 个高度项。
- 在一张表中给出 IPL 球队的名称，您必须在某些条件下找到他们之间要进行的比赛组合。 = 使用自连接
- 在表上运行聚合 = 使用具有范围的窗口函数
一些热身编码问题：
- 字符串中每个单词的频率。
- 子数组和等于 K。
- 以排序方式将 K 个排序列表合并到单个列表中。
简单的数据结构问题：
- 在不使用额外空间的情况下反转堆栈。
spark中关于优化技术的一些讨论。
Python集合。

第 2 轮（技术）[1.5 小时]：

简单的介绍。
项目讨论和您对项目的贡献。
SQL问题：
- 根据借方和贷方金额列从客户表中设计银行对账单。
热身编码问题：
- 要追加多少个字符，以生成字符串回文。
- 电子邮件屏蔽。
数据结构问题：
- 将两个由链表表示的数字相加
- 将二叉树转换为其镜像树。
- 树的底视图。
一些与Hive和 Spark 有关的问题。
- 火花架构。
- 我有一个文件，其中包含名称、地址、分数作为输入，在 spark 中读取文件并验证字段以得出错误分数假设名称是否由数字组成——如果地址长度 < 5，则错误为 10%，则错误为 15%如果分数小于 > 40，那么如果记录有 >= 20% 的错误写入错误文件，则错误为 20%，否则写入成功文件。
- 在 Spark 和Hive中加入优化。
- 缓慢变化的维度及其类型。
- 一些与文件格式和压缩技术有关的问题。

第 3 轮（技术 + 管理）[1.5 小时]：

简单的介绍。
告诉我一些简历中没有写的东西。
项目架构讨论和一些交叉问题，为什么要使用这项技术。
与集群配置相关的一些问题。
Spark 上的一些基于情境的问题。
- 如果火花作业需要 5 分钟才能完成，几个月后需要 2 小时。完成，那么可能是什么原因。
- 重新分区和合并之间的区别：在这种情况下，您将使用重新分区来减少分区的数量。
- 您在项目中面临哪些挑战。
- 如果您必须在集群上处理 500 GB 数据，那么您将拥有 64 GB 内存和 16 个内核，那么问题是您将使用多少个执行器来执行此 spark 作业，以及每个执行器的配置是什么。
- 在这种情况下，您将使用数据仓库和数据湖。
- 您将使用哪种数据结构来存储 aadhar 卡数据。
DSA的一个设计问题：
- 设计蛇梯。
  - 找到最小的骰子需要赢得，如果在接受输入的同时你也接受梯子和蛇的位置索引。
  - 您将选择哪种数据结构来解决这个问题。
一个谜题：
- 赛道上有 5 条车道。需要找出总共 25 匹马中最快的 3 匹。找出要进行的最少比赛次数，以确定最快的三匹。

在那之后，人力资源讨论通过电话进行。

以上就是我在面试过程中的经历。希望这会帮助你。

祝一切顺利！！