罗伯特博世数据科学家访谈 2019

电话：-
Q.1.什么是决策树?怎么分?决策树是如何工作的?
Q.2.每个节点在决策树中包含什么?
Q.3.什么是熵和精灵指数，它有什么帮助?
问题 4.什么是随机森林?什么是随机森林中的随机?如何计算OOB误差?
问题 5.随机森林是如何工作的?
Q.6.解释从获得数据到到达预测的最后阶段的整个过程。
问题 7. knn 是如何工作的?当数据是分类数据时，在 knn 中使用哪种距离算法?
Q.8.您有 10 个文档。每个主题都标有一个主题。新文档出现后，如何将其标记为其中一个主题?
主要关注点：候选人应该擅长编码，并且他还应该对 ML 算法有充分的了解。

面对面：-
R中的编码回合
1.创建一个这种形式的数据框
日期值
01/01/2019 12:00 xx
. .
. .
. .
2019 年 1 月 31 日 11:59。

值可以随机生成

2.将数据框转置成这种形式
日期 Hour1 Hour2 Hour3 。 . .价值
2019 年 1 月 1 日 12:00 13:00 14:00。 . . xx
02/01/2019 12:00 13:00 14:00 。 . . xx
. . . . . .
. . . . . .
. . . . . .
31/01/2019 12:00 13:00 14:00 。 . . xx

技术面试
Q.1.如果我想找到价格和销售额之间的关系，我应该使用回归还是相关?
答：简单的线性回归可以用来理解之间的关系
因变量(销售额)和自变量(价格)。
假设 = 不存在其他参数。
相关系数或标准化协方差 (-1 < r < 1) 会告诉我们：
1. 是否存在正相关或负相关。
2. 它给出了两个变量之间的强度和关系。

Q.2.如果我的数据集中有多个特征，我怎么知道我的模型构建要包含哪些特征?
回答。检查决定系数，即 R 平方。它是 y 变量中可由 x 变量解释的变化百分比。
如果 r 平方为 0，则意味着您无法从 x 预测 y。
如果 r squared 为 1，则意味着您可以根据 x 预测 y，而不会出现任何错误。
我已经回答了诸如主成分分析之类的降维技术。

Q.3.关于 SSE、RMSE、MAPE 的问题。

问题 4.更多关于端到端数据分析过程的问题。
问题 5.我在实际场景中被问到几个问题：
a) 如果我想改善交通状况，我会要求哪些数据。
b) 在提出问题时使用哪种算法。