📌 相关文章

📜 Biopython – 机器学习概述

📅 最后修改于: 2022-05-13 01:55:23.237000 🧑 作者: Mango

Biopython – 机器学习概述

机器学习算法在生活的各个方面都非常有用，可用于准确分析数据。生物信息学可以使用机器学习轻松获取信息，没有它，就很难分析大量的遗传信息。

机器学习算法大致分为三部分：监督学习、无监督学习和强化学习。本文仅讨论基于监督学习的内容。

监督学习算法基于训练数据集迭代预测结果，并由监督者进行修正，监督者可以假设为教师。简而言之，监督学习的数学表达式取决于方程 Y=f(X)，其中基于输入数据 X 预测输出变量 Y。

使用以下两种方法中的任何一种最合适的方法来解决监督学习问题：分类（输出值在一个类别中），回归（输出值是一个实数）。以下是一些模型，它们采用监督学习来针对生物信息学领域出现的不同问题取得成果：

逻辑回归：

确定因变量与一个或多个自变量之间关系的技术，其中因变量的类型是二元变量。该模型用于使用加权总和来预测 K 个类别。通过这个模型，我们可以计算任何事件发生的概率。

Biopython 具有用于此类操作的 Bio.LogisticRegression 模块。目前，K 值为 2，用于 DNA 搜索。两类是OP（同一人的相邻基因）和NOP（不同人的相邻基因）。 Biopython 中逻辑回归模型的一个例子是细菌中的基因调控（增加或减少基因产物的各种方法）。

朴素贝叶斯：

它是一组算法，所有算法都依赖于贝叶斯定理（它将事件的概率基于在它之前发生的事件）。这符合新的观察结果和以前的数据。所有数据都是相互独立的。

Bio.NaiveBayes 模块可以解决这个问题。由于朴素贝叶斯算法被认为非常适合推荐系统，因此正在研究基于朴素贝叶斯模型的基因推荐。

马尔可夫模型和最大熵：

隐马尔可夫模型（一种对序列数据建模的简单方法）用于基因组数据分析。对于基于片段或序列的基因区域的识别，使用该模型。最大熵用于基因序列的生物建模。

在生物信息学领域，正在研究这两种模型。 Bio.MaximumEntropy、Bio.MarkovModel 和/或 Bio.HMM.MarkovModel 模块用于支持这些模型提供的应用程序工作。

k-最近邻：

该模型首先存储不同数量的案例，然后根据适合该模型的最近邻数据对数据进行分类。为此目的使用统计估计和模式识别。

Bio.kNN 模块适用于此类操作。基因对（细胞中存在的特定基因的两个副本）准确性检查是使用此类模型检索结果的问题的一个示例。