📅  最后修改于: 2020-09-28 05:50:43             🧑  作者: Mango
下面列出了常见的机器学习面试问题和答案。
机器学习是人工智能的一种形式,它处理系统编程并自动执行数据分析,以使计算机无需经过明确编程即可通过经验学习并采取行动。
例如,对机器人进行编码的方式是,它们可以根据从传感器收集的数据执行任务。他们自动从数据中学习程序,并随着经验的提高而提高。
在归纳学习中,该模型通过从一组观察到的实例中进行实例学习来得出广义的结论。另一方面,在演绎学习中,模型首先应用结论,然后得出结论。
例如,如果我们必须向孩子解释,玩火会引起灼伤。我们可以通过两种方式向孩子解释这一点:我们可以显示各种火灾事故的训练示例或被烧伤的人的图像,并将其标记为“危险”。在这种情况下,孩子会借助示例来理解而不是玩火。它是归纳机器学习的形式。教同一件事的另一种方法是让孩子玩火,等着看会发生什么。如果孩子被烫伤,它将教会孩子不要玩火,并避免靠近火。它是演绎学习的形式。
数据挖掘可以描述为结构化数据尝试抽象知识或有趣的未知模式的过程。在此过程中,将使用机器学习算法。
机器学习代表了算法的研究,设计和开发,这些算法为处理器提供了无需明确编程即可学习的能力。
当统计模型描述随机误差或噪声而不是基本关系时,过度拟合可以在机器学习中看到。当模型过于复杂时,通常会观察到过度拟合。发生这种情况的原因是有关训练数据类型数量的参数过多。该模型显示的性能较差,已被过度拟合。
当用于训练模型的标准与用于判断模型效率的标准不同时,就会出现过度拟合的可能性。
当我们有一个小的数据集,并且一个模型正在尝试从中学习时,就会发生过度拟合。通过使用大量数据,可以避免过度拟合。但是,如果我们有一个小型数据库,并被迫基于该数据库构建模型,则可以使用一种称为交叉验证的技术。在这种方法中,通常会给模型一个已知数据的数据集(在该数据集上运行训练数据集)和一个未知数据的数据集(对该模型进行测试)。交叉验证的主要目的是定义一个数据集,以在训练阶段“测试”模型。如果有足够的数据,则使用“等渗回归”来防止过度拟合。
KNN或K最近邻是一种用于分类目的的监督算法。在KNN中,将测试样本作为其最近邻的大多数类别。另一方面,K-means是一种无监督算法,主要用于聚类。在k均值聚类中,它仅需要一组未标记的点和一个阈值。该算法进一步获取未标记的数据,并学习如何通过计算不同未标记点之间的距离平均值将其聚类为一组。
机器赚钱中不同类型的算法方法是:
强化学习是机器学习中使用的一种算法技术。它涉及一个通过产生动作并发现错误或奖励来与其环境进行交互的代理。增强学习被不同的软件和机器采用,以寻找在特定情况下应遵循的最佳行为或路径。它通常根据执行的每个动作的奖励或惩罚来学习。
偏差和方差都是错误。由于学习算法中的错误或过于简单的假设,偏差是一种错误。这可能会导致模型无法拟合数据,从而难以具有较高的预测准确性,也很难将知识从训练集推广到测试集。
由于学习算法过于复杂,方差是一个错误。这导致算法对训练数据的高度变化高度敏感,这可能导致模型过度拟合数据。
为了最佳地减少错误数量,我们需要权衡偏差和方差。
Classification | Regression |
---|---|
|
|
|
|
|
|
|
|
五个流行的算法是:
战略性地制作并分类了许多模型,例如分类器,以解决特定的计算程序,这被称为集成学习。集成方法也称为基于委员会的学习或学习多个分类器系统。它训练各种假设以解决同一问题。集成建模最合适的示例之一是随机森林树,其中使用多个决策树来预测结果。它用于改善模型的分类, 函数逼近,预测等。
在用于定义相同数据的各种数学模型中选择模型的过程称为模型选择。模型学习应用于统计,数据挖掘和机器学习领域。
在机器学习中建立假设或模型的过程分为三个阶段:
在监督学习中,标准方法是将示例集分为训练集和测试。
在机器学习信息的各个领域中,使用一组数据来发现潜在的预测关系,这就是所谓的“训练集”。训练集是给学习者的一个例子。此外,“测试集”用于测试学习者生成的假设的准确性。它是从学习者保留下来的一组实例。因此,训练集不同于测试集。
数据丢失是处理数据和处理数据时的标准因素之一。它被认为是数据分析师面临的最大挑战之一。有许多方法可以估算缺失的值。处理数据集中缺失数据的一些常用方法可以定义为删除行,用均值/中位数/众数代替,预测缺失值,分配唯一类别,使用支持缺失值的算法等。
ILP代表归纳逻辑编程。它是使用逻辑编程的机器学习的一部分。它旨在搜索可用于构建预测模型的数据模式。在此过程中,逻辑程序被假定为假设。
在进行机器学习项目时,要遵循一个良好的工作模型,必须遵循几个基本步骤。这些步骤可以包括参数调整,数据准备,数据收集,训练模型,模型评估和预测等。
Precision和Recall都是在信息检索领域中用来测量信息检索系统根据用户请求回收相关数据的性能的度量。
精度可以说是一个积极的预测值。它是接收到的实例中相关实例的一部分。
另一方面,召回是已检索的相关实例在总金额或相关实例中所占的比例。召回也称为灵敏度。
决策树可以定义为“监督机器学习”,其中根据特定参数对数据进行连续拆分。它建立类似于树结构的分类或回归模型,在开发决策树时将数据集分解为越来越小的子集。该树可以由两个实体定义,即决策节点和叶子。叶子是决策或结果,决策节点是拆分数据的地方。决策树可以管理分类数据和数字数据。
与算法无关的机器学习可以定义为机器学习,其中数学基础独立于任何特定的分类器或学习算法。
分类器是假设或离散值函数的一种情况,该函数用于将类别标签分配给特定数据点。它是一个输入离散或连续特征值的向量并输出单个离散值(类别)的系统。
遗传编程(GP)几乎类似于进化算法,它是机器学习的子集。遗传编程软件系统实现了一种算法,该算法使用随机突变,适应度函数,交叉和多代进化来解决用户定义的任务。遗传程序设计模型基于测试并在一组结果中选择最佳选项。
SVM代表支持向量机。 SVM是带有相关学习算法的监督学习模型,该算法分析用于分类和回归分析的数据。
SVM可以处理的分类方法是:
数组是几乎在所有现代编程语言中广泛用作默认类型的数据类型。它用于存储相似类型的数据。
但是在许多用例中,我们不知道要存储的数据量。对于这种情况,需要高级数据结构,而这样的数据结构之一就是链表。
有几点解释了链表和数组的不同之处:
ARRAY | LINKED LIST |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
混淆矩阵是用于汇总分类算法的性能的表。也称为误差矩阵。
哪里,
TN =真负TP =真正FN =假负FP =假正
模型准确性是模型性能的子集。模型的准确性与模型的性能成正比。因此,更好的模型性能,更准确的预测。
套袋和提振的相似之处
套袋和加强之间的区别
群集抽样是在定义的总体中随机选择完整组的过程,它们具有相似的特征。集群样本是每个采样单位是元素的集合或集群的概率。
例如,如果我们将一组公司中经理的总数聚在一起,在这种情况下,经理(样本)将代表要素,而公司将代表集群。
贝叶斯网络也被称为“信念网络”或“休闲网络”,用于表示一组变量之间的概率关系的图形模型。
例如,贝叶斯网络可以用来表示疾病和症状之间的概率关系。根据症状,网络还可以计算各种疾病存在的概率。
高效的算法可以在贝叶斯网络中执行推理或学习。与变量(例如语音信号或蛋白质序列)相关的贝叶斯网络称为动态贝叶斯网络。
贝叶斯逻辑程序包含两个组件:
降维是用于减少考虑中的随机变量数量的过程。
降维可以分为特征选择和提取。
在机器学习中,可以将延迟学习描述为一种方法,在该方法中,归纳和泛化过程会延迟到执行分类为止。由于具有相同的属性,有时将基于实例的学习算法称为惰性学习算法。
F1分数代表模型性能的度量。它称为模型的精度和召回率的加权平均值。趋于1的结果被认为是最好的,趋于0的结果被认为是最差的。它可以用于分类测试,在这里,真正的否定并不重要。
当删除可能由弱预测能力组成的分支以降低模型的复杂性并提高决策树模型的预测准确性时,据说在决策树中会发生修剪。修剪可以采用自下而上和自上而下的方法,例如减少错误修剪和成本复杂性修剪的方法。
减少错误修剪是最简单的版本,它替换了每个节点。如果无法降低预测准确性,则应将其修剪。但是,它通常非常接近会优化以实现最大准确性的方法。
推荐系统是信息过滤系统的子目录。它可以预测用户提供给产品的偏好或排名。根据偏好,它向用户提供类似的建议。推荐系统广泛用于电影,新闻,研究文章,产品,社交技巧,音乐等。
当我们的训练集和测试集的错误率都很低时,欠拟合就是一个问题。很少有算法能更好地解释,但不能更好地预测。
每当模型开始过度拟合/不足拟合时,都需要进行正则化。这是带有目标函数的更多功能的成本术语。因此,它试图将许多变量的系数推为零并减少成本项。它有助于降低模型的复杂性,从而使模型可以更好地进行预测(概括)。
正则化是一种回归形式,可将系数估计值约束/正化或缩小为零。换句话说,它不鼓励学习更复杂或更灵活的模型,以避免过度拟合的风险。它减少了模型的方差,而没有明显增加其偏差。
正则化用于解决过拟合问题,因为它通过添加权重向量w的L1(LASSO)或L2(Ridge)范数的倍数来惩罚损失函数 。
大多数机器学习算法都需要数字作为输入。这就是为什么我们将分类值转换为因子以获得数值。我们也不必处理伪变量。
函数factor()和as.factor()用于将变量转换为因子。
对于更好的预测模型,只有当变量本质上是序数时,才可以将其视为连续变量。
大多数人已经在日常生活中使用机器学习。假设您正在与互联网互动,那么实际上是通过搜索表达自己的喜好,不喜欢。所有这些东西都由计算机上的Cookie收集,由此可以评估用户的行为。它有助于提高用户通过Internet的进度并提供类似的建议。