📜  MakeMyTrip 数据工程师面试

📅  最后修改于: 2022-05-13 01:58:29.184000             🧑  作者: Mango

MakeMyTrip 数据工程师面试


问题 1。什么是回归?什么是分类?
答。回归:目标变量连续。
分类:目标变量是离散的

问题 2。两者使用的错误指标是什么?
答。回归:SSE
分类:混淆指标

问题 3。当存在类不平衡时,为什么准确性无济于事?
答。因为准确性是由大多数班级得出的。

问题 4。如何处理班级不平衡?
答。 1. 使用性能指标作为 ROC 曲线下的面积
2. 惩罚算法
3. 使用基于树的算法,如 RF、梯度提升树

问题 5。什么是 knn ?
问题 6。什么是 k 均值?
此处说明:https://www.quora.com/How-is-the-k-nearest-neighbor-algorithm-different-from-k-means-clustering

问题 7。 y=ax+b 是一个线性模型。你能告诉我 y=ax^2 + bx + c 是否也是线性模型吗?
答。 y=ax^2 + bx + c 也是线性的,因为 x^2 也可以表示为 X。
因此,实际关系可能不是线性的,但拟合的模型是线性的

问题 8。什么是 SSE 和 RMSE?为什么使用 RMSE 而不是 SSE ?
答。 RMSE 具有平均值,但 SSE 是总值。

问题 9。低 RMSE 是否表示过度拟合?

问题 10。如何解决过拟合?
答。 1. 交叉验证
2.正则化
3. 合奏

问题 11。为什么 knn 不是模型?
答案 11。这是一个懒惰的模型。

问题 12。用Python编写代码解决以下问题:
(一种)
预订表:
id、日期、平台
1、12/3、安卓
2, 12/3, IOS
3, 13/3, 安卓
4, 13/3, IOS
5, 13/3, 安卓
6, 14/3, IOS
7, 14/3, 安卓
对于每个日期,有多少预订来自 android 和多少来自 ios?
回答 :
df1 = pd.read_csv(“MMT.csv”)
df1.groupby(['date', 'platform']).count()

(二)
数据= ['猫','蝙蝠','老鼠','猫','老鼠']
给出列表中每个唯一元素的计数
回答 :
将熊猫导入为 pd
数据= ['猫','蝙蝠','老鼠','猫','老鼠']
df = pd.DataFrame(data, columns=['Category'])
vc = df['Category'].value_counts()