Biopython – 机器学习概述
机器学习算法在生活的各个方面都非常有用,可用于准确分析数据。生物信息学可以使用机器学习轻松获取信息,没有它,就很难分析大量的遗传信息。
机器学习算法大致分为三部分:监督学习、无监督学习和强化学习。本文仅讨论基于监督学习的内容。
监督学习算法基于训练数据集迭代预测结果,并由监督者进行修正,监督者可以假设为教师。简而言之,监督学习的数学表达式取决于方程 Y=f(X),其中基于输入数据 X 预测输出变量 Y。
使用以下两种方法中的任何一种最合适的方法来解决监督学习问题:分类(输出值在一个类别中),回归(输出值是一个实数)。以下是一些模型,它们采用监督学习来针对生物信息学领域出现的不同问题取得成果:
逻辑回归:
确定因变量与一个或多个自变量之间关系的技术,其中因变量的类型是二元变量。该模型用于使用加权总和来预测 K 个类别。通过这个模型,我们可以计算任何事件发生的概率。
Biopython 具有用于此类操作的 Bio.LogisticRegression 模块。目前,K 值为 2,用于 DNA 搜索。两类是OP(同一人的相邻基因)和NOP(不同人的相邻基因)。 Biopython 中逻辑回归模型的一个例子是细菌中的基因调控(增加或减少基因产物的各种方法)。
朴素贝叶斯:
它是一组算法,所有算法都依赖于贝叶斯定理(它将事件的概率基于在它之前发生的事件)。这符合新的观察结果和以前的数据。所有数据都是相互独立的。
Bio.NaiveBayes 模块可以解决这个问题。由于朴素贝叶斯算法被认为非常适合推荐系统,因此正在研究基于朴素贝叶斯模型的基因推荐。
马尔可夫模型和最大熵:
隐马尔可夫模型(一种对序列数据建模的简单方法)用于基因组数据分析。对于基于片段或序列的基因区域的识别,使用该模型。最大熵用于基因序列的生物建模。
在生物信息学领域,正在研究这两种模型。 Bio.MaximumEntropy、Bio.MarkovModel 和/或 Bio.HMM.MarkovModel 模块用于支持这些模型提供的应用程序工作。
k-最近邻:
该模型首先存储不同数量的案例,然后根据适合该模型的最近邻数据对数据进行分类。为此目的使用统计估计和模式识别。
Bio.kNN 模块适用于此类操作。基因对(细胞中存在的特定基因的两个副本)准确性检查是使用此类模型检索结果的问题的一个示例。