10 个基本的机器学习面试问题
- 解释监督和非监督机器学习之间的区别?
在有监督的机器学习算法中,我们必须提供标记数据,例如股票市场价格的预测,而在无监督中,我们不需要标记数据,例如将电子邮件分为垃圾邮件和非垃圾邮件。
- 解释 KNN 和 k.means 聚类的区别?
K-Nearest Neighbors 是一种监督机器学习算法,我们需要将标记数据提供给模型,然后它根据点与最近点的距离对点进行分类。
而另一方面,K-Means 聚类是一种无监督的机器学习算法,因此我们需要为模型提供未标记的数据,该算法根据不同点之间的距离的平均值将点分类为聚类 - 分类和回归有什么区别?
分类用于产生离散结果,分类用于将数据分类到某些特定类别中。例如,将电子邮件分为垃圾邮件和非垃圾邮件类别。
而我们在处理连续数据时使用回归分析,例如预测某个时间点的股票价格。 - 如何确保您的模型不会过度拟合?
保持模型的设计简单。尝试通过考虑较少的变量和参数来降低模型中的噪声。
交叉验证技术,如 K 折交叉验证,帮助我们控制过拟合。
LASSO 等正则化技术通过惩罚可能导致过度拟合的某些参数来帮助避免过度拟合。 - “训练集”和“测试集”是什么意思?
我们将给定的数据集分成两个不同的部分,即“训练集”和“测试集”。
“训练集”是用于训练模型的数据集部分。
“测试集”是用于测试训练模型的数据集部分。 - 列出 Navie Bayes 的主要优势?
与逻辑回归等其他模型相比,朴素贝叶斯分类器收敛速度非常快。因此,在朴素贝叶斯分类器的情况下,我们需要更少的训练数据。 - 解释集成学习。
在集成学习中,生成了许多基本模型,如分类器和回归器,并将它们组合在一起,以便提供更好的结果。当我们构建准确且独立的组件分类器时会使用它。有顺序和并行的集成方法。
- 解释机器学习中的降维。
降维是减少特征矩阵大小的过程。我们尝试减少列数,以便通过组合列或删除额外变量来获得更好的特征集。 - 当您的模型存在低偏差和高方差时,您应该怎么做?
当模型的预测值非常接近实际值时,这种情况称为低偏差。在这种情况下,我们可以使用随机森林回归器等装袋算法。 - 解释随机森林和梯度提升算法之间的区别。
随机森林使用装袋技术,而 GBM 使用提升技术。
随机森林主要尝试减少方差,GBM 减少模型的偏差和方差