📝 Scikit学习教程
22篇技术文档📅  最后修改于: 2020-12-10 05:45:30        🧑  作者: Mango
Scikit-learn(Sklearn)是Python用于机器学习的最有用和最强大的库。它通过Python的一致性接口为机器学习和统计建模提供了一系列有效的工具,包括分类,回归,聚类和降维。该库主要用Python编写,基于NumPy,SciPy和Matplotlib构建。对于对机器学习主题感兴趣或将该主题作为课程一部分的研究生,研究生和研究型学生,本教程将非常有用。读者可以是初学者或高级学习者。...
📅  最后修改于: 2020-12-10 05:45:57        🧑  作者: Mango
在本章中,我们将了解什么是Scikit-Learn或Sklearn,Scikit-Learn的起源以及其他一些相关主题,例如负责Scikit-Learn的开发和维护的社区和贡献者,其先决条件,安装及其功能。什么是Scikit-Learn(Sklearn)Scikit-learn(Sklearn)是Python用于机器学习的最有用和最强大的库。它通过Python的一致性接口为机器学习和统计建模提供了...
📅  最后修改于: 2020-12-10 05:46:43        🧑  作者: Mango
本章介绍Sklearn中涉及的建模过程。让我们详细了解一下,并从数据集加载开始。数据集加载数据的集合称为数据集。它具有以下两个组成部分-特征-数据的变量称为其特征。它们也称为预测变量,输入或属性。特征矩阵-如果有多个特征,它是特征的集合。功能名称-这是所有功能名称的列表。响应-基本取决于特征变量的是输出变量。它们也称为目标,标签或输出。响应向量-用于表示响应列。通常,我们只有一个响应列。目标名称-...
📅  最后修改于: 2020-12-10 05:47:05        🧑  作者: Mango
众所周知,机器学习即将根据数据创建模型。为此,计算机必须首先了解数据。接下来,我们将讨论表示数据的各种方式,以便计算机可以理解-数据如表在Scikit学习中表示数据的最佳方法是表格。表格表示数据的二维网格,其中行表示数据集的各个元素,列表示与这些单个元素相关的数量。例通过下面给出的示例,我们可以借助Pythonseaborn库以Pandas DataFrame的形式下载虹膜数据集。输出从上面的输出...
📅  最后修改于: 2020-12-10 05:47:56        🧑  作者: Mango
在本章中,我们将学习Estimator API(应用程序编程接口)。让我们首先了解什么是Estimator API。什么是估算器API它是Scikit-learn实现的主要API之一。它为各种ML应用程序提供了一致的接口,这就是Scikit-Learn中所有机器学习算法都是通过Estimator API实现的原因。从数据中学习(拟合数据)的对象是估计量。它可以与分类,回归,聚类的任何算法一起使用,...
📅  最后修改于: 2020-12-10 05:48:28        🧑  作者: Mango
Scikit-learn的对象共享一个统一的基本API,该API由以下三个互补接口组成-估计器接口-用于构建和拟合模型。预测器接口-用于进行预测。变压器接口-用于转换数据。这些API采用简单的约定,并且以避免框架代码泛滥的方式指导了设计选择。公约目的约定的目的是确保API遵循以下广泛原则-一致性-所有对象(无论是基础对象还是复合对象)都必须共享一致的接口,该接口进一步由一组有限的方法组成。检查-构...
📅  最后修改于: 2020-12-10 05:48:45        🧑  作者: Mango
本章将帮助您学习Scikit-Learn中的线性建模。让我们首先了解什么是Sklearn中的线性回归。下表列出了Scikit-Learn提供的各种线性模型-Sr.NoModel & Description1Linear RegressionIt is one of the best statistical models that studies the relationship between a...
📅  最后修改于: 2020-12-10 05:49:09        🧑  作者: Mango
本章重点介绍Sklearn中的多项式特征和流水线工具。多项式特征介绍经过数据非线性函数训练的线性模型通常可以保持线性方法的快速性能。它还允许他们适应更大范围的数据。这就是在机器学习中使用此类经过非线性函数训练的线性模型的原因。一个这样的例子是,可以通过从系数构造多项式特征来扩展简单的线性回归。数学上,假设我们有标准的线性回归模型,那么对于二维数据,它看起来像这样-$$ Y = W_ {0} + W...
📅  最后修改于: 2020-12-10 05:50:08        🧑  作者: Mango
在这里,我们将学习Sklearn中的优化算法,称为随机梯度下降(SGD)。随机梯度下降(SGD)是一种简单而有效的优化算法,用于查找使成本函数最小化的函数参数/系数值。换句话说,它用于凸损失函数(例如SVM和Logistic回归)下的线性分类器的判别学习。它已成功应用于大型数据集,因为是针对每个训练实例(而不是在实例结束时)执行系数更新。SGD分类器随机梯度下降(SGD)分类器基本上实现了简单的S...
📅  最后修改于: 2020-12-10 05:51:36        🧑  作者: Mango
本章介绍了一种称为支持向量机(SVM)的机器学习方法。介绍支持向量机(SVM)是强大而灵活的监督型机器学习方法,用于分类,回归和离群值检测。 SVM在高维空间中非常有效,通常用于分类问题。 SVM受欢迎且具有存储效率,因为它们在决策函数使用训练点的子集。SVM的主要目标是将数据集分为几类,以找到最大的边际超平面(MMH),可以在以下两个步骤中完成-支持向量机将首先以迭代方式生成超平面,从而以最佳方...
📅  最后修改于: 2020-12-10 05:52:40        🧑  作者: Mango
在这里,我们将了解什么是Sklearn中的异常检测以及如何将其用于识别数据点。异常检测是一种用于识别数据集中与其他数据不太吻合的数据点的技术。它在商业中具有许多应用程序,例如欺诈检测,入侵检测,系统运行状况监视,监视和预测性维护。异常也称为离群值,可以分为以下三类:点异常-当单个数据实例被认为与其余数据异常时,会发生异常。上下文异常-这种异常是上下文特定的。如果数据实例在特定上下文中异常,则会发生...
📅  最后修改于: 2020-12-10 05:53:12        🧑  作者: Mango
本章将帮助您了解Sklearn中最接近的邻居方法。基于邻居的学习方法有两种类型,即有监督的和无监督的。有监督的基于邻居的学习既可以用于分类预测问题,也可以用于回归预测问题,但是它主要用于行业中的分类预测问题。基于邻居的学习方法没有专门的训练阶段,而是在分类时将所有数据用于训练。它还不假定有关基础数据的任何信息。这就是它们本质上是惰性和非参数化的原因。最近邻方法的主要原理是-查找距离新数据点最近的壁...
📅  最后修改于: 2020-12-10 05:54:19        🧑  作者: Mango
k-NN(k最近邻)是最简单的机器学习算法之一,本质上是非参数的和惰性的。非参数意味着没有基础数据分布的假设,即从数据集中确定了模型结构。惰性或基于实例的学习意味着,出于模型生成的目的,它不需要任何训练数据点,并且在测试阶段会使用整个训练数据。k-NN算法包括以下两个步骤-第1步在此步骤中,它计算并存储训练集中每个样本的k个最近邻居。第2步在此步骤中,对于未标记的样本,它将从数据集中检索k个最近的...
📅  最后修改于: 2020-12-10 05:54:41        🧑  作者: Mango
朴素贝叶斯方法是一组基于应用贝叶斯定理的有监督学习算法,并强烈假设所有预测变量彼此独立,即一个类中某个特征的存在与任何其他特征的存在无关在同一个班。这是朴素的假设,这就是为什么这些方法被称为朴素贝叶斯方法。贝叶斯定理陈述以下关系以便找到类的后验概率,即标签的概率和一些观察到的特征,$ P \ left(\ begin {array} {c} Y \ arrowvert features \ end...
📅  最后修改于: 2020-12-10 05:55:28        🧑  作者: Mango
在本章中,我们将学习称为决策树的Sklearn中的学习方法。决策树(DTs)是最强大的非参数监督学习方法。它们可用于分类和回归任务。 DT的主要目标是通过学习从数据特征推导出的简单决策规则来创建预测目标变量值的模型。决策树有两个主要实体。一个是根节点,数据在其中拆分,另一个是决策节点或叶子,在此处获得最终输出。决策树算法下面解释了不同的决策树算法-ID3它由Ross Quinlan在1986年开发...