📝 Python机器学习教程
28篇技术文档📅  最后修改于: 2020-12-10 05:38:16        🧑  作者: Mango
回归概论回归是另一个重要且广泛使用的统计和机器学习工具。基于回归的任务的主要目标是针对给定的输入数据,预测输出标签或响应(连续的数值)。输出将基于模型在训练阶段学到的知识。基本上,回归模型使用输入数据特征(独立变量)及其对应的连续数值输出值(因变量或结果变量)来学习输入与对应输出之间的特定关联。回归模型的类型回归模型具有以下两种类型-简单回归模型-这是最基本的回归模型,其中预测是根据数据的单变量特...
📅  最后修改于: 2020-12-10 05:39:02        🧑  作者: Mango
线性回归简介线性回归可以定义为统计模型,用于分析因变量与给定的一组自变量之间的线性关系。变量之间的线性关系意味着,当一个或多个自变量的值更改(增加或减少)时,因变量的值也将相应更改(增加或减少)。数学上的关系可以借助以下方程式来表示-Y = mX + b在这里,Y是我们试图预测的因变量X是我们用来进行预测的因变量。m是回归线的斜率,代表X对Y的影响b是一个常数,称为Y截距。如果X = 0,则Y等于...
📅  最后修改于: 2020-12-10 05:39:40        🧑  作者: Mango
集群介绍聚类方法是最有用的无监督ML方法之一。这些方法用于查找数据样本之间的相似性以及关系模式,然后基于特征将这些样本聚类为具有相似性的组。聚类很重要,因为它决定了当前未标记数据之间的固有分组。他们基本上对数据点进行一些假设以构成它们的相似性。每个假设将构建不同但有效的集群。例如,以下是显示集群系统的图,该集群系统将不同集群中的同类数据分组在一起-团簇形成方法簇不必形成球形。以下是其他一些集群形成...
📅  最后修改于: 2020-12-10 05:40:19        🧑  作者: Mango
K-Means算法简介K-均值聚类算法计算质心并进行迭代,直到找到最佳质心为止。它假定群集的数目是已知的。它也称为平面聚类算法。通过算法从数据中识别出的聚类数量以K均值中的“ K”表示。在该算法中,将数据点分配给群集,以使数据点和质心之间的平方距离之和最小。应当理解,簇内的较少变化将导致相同簇内的更多相似数据点。K均值算法的工作我们可以通过以下步骤来了解K-Means聚类算法的工作原理-步骤1-首...
📅  最后修改于: 2020-12-10 05:40:42        🧑  作者: Mango
均值漂移算法简介如前所述,它是在无监督学习中使用的另一种强大的聚类算法。与K均值聚类不同,它没有做任何假设;因此它是一种非参数算法。均值漂移算法基本上是通过将数据点移向最高密度的数据点(即群集质心)来迭代地将数据点分配给群集。K-Means算法和Mean-Shift算法之间的区别在于,后一种算法无需提前指定聚类数,因为聚类数将由算法的数据确定。均值漂移算法的工作通过以下步骤,我们可以了解Mean-...
📅  最后修改于: 2020-12-10 05:41:15        🧑  作者: Mango
层次聚类简介分层聚类是另一种无监督的学习算法,用于将具有相似特征的未标记数据点分组在一起。分层聚类算法分为以下两类-聚集层次算法-在聚集层次算法中,每个数据点都被视为单个群集,然后连续合并或聚集(自下而上)群集对。群集的层次结构表示为树状图或树结构。分开的分层算法-另一方面,在分开的分层算法中,所有数据点都被视为一个大群集,并且群集过程涉及将(一个自上而下的方法)将一个大群集划分为各种小群集。执行...
📅  最后修改于: 2020-12-10 05:41:58        🧑  作者: Mango
介绍K最近邻(KNN)算法是一种监督的ML算法,可用于分类以及回归预测问题。但是,它主要用于行业中的分类预测问题。以下两个属性将很好地定义KNN-惰性学习算法-KNN是一种惰性学习算法,因为它没有专门的训练阶段,并且在分类时将所有数据用于训练。非参数学习算法-KNN也是非参数学习算法,因为它不假设有关基础数据的任何信息。KNN算法的工作K最近邻(KNN)算法使用“特征相似性”来预测新数据点的值,这...
📅  最后修改于: 2020-12-10 05:42:41        🧑  作者: Mango
我们可以使用各种指标来评估ML算法,分类以及回归算法的性能。我们必须谨慎选择评估ML性能的指标,因为-如何测量和比较ML算法的性能完全取决于您选择的指标。您如何权衡各种特征在结果中的重要性,将完全取决于您选择的指标。分类问题的绩效指标在前面的章节中,我们讨论了分类及其算法。在这里,我们将讨论各种性能指标,这些指标可用于评估分类问题的预测。混淆矩阵这是衡量分类问题性能的最简单方法,其中输出可以是两种...
📅  最后修改于: 2020-12-10 05:43:18        🧑  作者: Mango
介绍为了成功执行并产生结果,机器学习模型必须使某些标准工作流程自动化。这些标准工作流程的自动化过程可以在Scikit-learn Pipelines的帮助下完成。从数据科学家的角度来看,管道是一个通用的但非常重要的概念。它基本上允许数据从其原始格式流向一些有用的信息。下图可以帮助理解管道的工作方式-ML管道的块如下-数据提取-顾名思义,这是导入数据以供ML项目使用的过程。可以从单个或多个系统实时或...
📅  最后修改于: 2020-12-10 05:44:21        🧑  作者: Mango
整体演奏的性能提升集成多个模型可以使我们提高机器学习的效果。基本上,集成模型由几个单独训练的监督学习模型组成,并且与单个模型相比,它们的结果以各种方式合并以实现更好的预测性能。合奏方法可以分为以下两组-顺序集成法顾名思义,在这种集成方法中,基础学习器是顺序生成的。这种方法的动机是利用基础学习者之间的依赖性。并行合奏方法顾名思义,在这种集成方法中,基础学习器是并行生成的。这种方法的动机是利用基础学习...
📅  最后修改于: 2020-12-10 05:44:46        🧑  作者: Mango
通过算法调整提高性能众所周知,ML模型的参数化方式可以针对特定问题调整其行为。算法调整意味着找到这些参数的最佳组合,从而可以提高ML模型的性能。这个过程有时称为超参数优化,算法本身的参数称为超参数,而ML算法找到的系数称为参数。在这里,我们将讨论Python Scikit-learn提供的一些算法参数调整方法。网格搜索参数调整这是一种参数调整方法。该方法工作的关键点是针对网格中指定的算法参数的每种...
📅  最后修改于: 2020-12-10 05:45:03        🧑  作者: Mango
以下资源包含有关使用Python进行机器学习的其他信息。请使用它们来获得有关此方面的更深入的知识。使用Python进行机器学习的有用链接机器学习使用Python @百科-机器学习使用Python,它的历史和各种其他方面一直处于简单的语言解释。使用Python进行机器学习的实用书籍要在此页面上注册您的网站,请发送电子邮件至...
📅  最后修改于: 2020-12-10 05:45:16        🧑  作者: Mango
机器学习(ML)基本上是计算机科学领域,计算机系统可以像人类一样提供对数据的感知。简而言之,ML是一种人工智能,可以通过使用算法或方法从原始数据中提取模式。 ML的重点是允许计算机系统从经验中学习,而无需进行明确的编程或人工干预。...