📜  BioPython 模块中的序列

📅  最后修改于: 2022-05-13 01:54:49.404000             🧑  作者: Mango

BioPython 模块中的序列

先决条件: BioPython模块

序列基本上是一系列特殊的字母,用于表示生物体、DNA 或 RNA 的蛋白质。 Biopython中的序列通常由Bio.Seq模块中描述的Seq对象处理。 Seq对象具有内置函数,如补体、 reverse_complementtranscribeback_transcribetranslate等。 Seq 对象有许多字符串方法,如count()、find()、split()、strip()等。

以下是 Biopython 中的一些序列示例:

示例 1:

Python3
# Import libraries
from Bio.Seq import Seq
  
# Creating a sequence
seq = Seq("GACT")
  
# Printing Sequence
print(seq)


Python3
# Import libraries
from Bio.Seq import Seq
  
# Creating a sequence
seq = Seq("ACGT=TT")
  
# Updating sequence
updatedSeq = my_dna.ungap("=")
  
# Printing Sequence
print(updatedSeq)


输出:

GACT

在上面的例子中,序列GACT,每个字母代表甘氨酸、丙氨酸、半胱氨酸和苏氨酸。每个 Seq 对象都有两个重要的属性:

  1. 数据,它是实际的序列字符串(在本例中为GACT )。
  2. 字母,用于表示序列的类型,即DNA序列、RNA序列等。它本质上是通用的,默认不代表任何序列。

示例 2:

蟒蛇3

# Import libraries
from Bio.Seq import Seq
  
# Creating a sequence
seq = Seq("ACGT=TT")
  
# Updating sequence
updatedSeq = my_dna.ungap("=")
  
# Printing Sequence
print(updatedSeq)

输出:

ACGTT

这里,序列ACGT,每个字母代表腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。 =TT指的是各种蛋白质命名约定和功能。

字母类:

除了字符串属性之外, Seq对象还具有字母表属性,这些属性是来自Bio.Alphabet模块的Alphabet类的实例,例如 IUPAC DNA 或通用 DNA 描述了分子的类型,即 DNA、RNA、蛋白质或它也可能表示预期符号。

Alphabet 模块提供了以下类来表示各种序列:

ClassProperty
SingleLetterAlphabetGeneric alphabet with letters of size one,derives from alphabet and all other alphabet types are derived from this.
ProteinAlphabet Generic single letter protein alphabet
NucleotideAlphabetGeneric single letter nucleotide alphabet
DNAAlphabetGeneric single letter DNA alphabet.
RNAAlphabetGeneric single letter RNA alphabet.
SecondaryStructureAlphabet used to describe secondary structure.
ThreeLetterProteinThree letter protein alphabet.
AlphabetEncoder class used  to construct a new and extended alphabet from an existing one.
Gapped Alphabets which contain a gap character.
HasStopCodonAlphabets which contain a stop symbol.

Bio.Alphabet还提供了一个IUPAC模块,该模块提供了 IUPAC 社区定义的序列类型。下面列出了 IUPAC 模块中的一些类:

NameClassProperty
IUPACProteinProteinIUPAC protein alphabet of 20 standard amino acids.
ExtendedIUPACProtein extended_proteinExtended uppercase IUPAC protein single letter alphabet .
IUPACAmbiguousDNA  ambiguous_dnaUppercase IUPAC ambiguous DNA.
IUPACUnambiguousDNA unambiguous_dnaUppercase IUPAC unambiguous DNA (GATC).
ExtendedIUPACDNA extended_dnaExtended IUPAC DNA alphabet.
IUPACAmbiguousRNA ambiguous_rnaUppercase IUPAC ambiguous RNA.
IUPACUnambiguousRNA unambiguous_rna Uppercase IUPAC unambiguous RNA (GAUC).

Bio.AlphabetBiopython中删除。字母对象的预期函数从未得到很好的确立,并且已经存在 20 岁的样式存在缺点。尤其是AlphabetEncoder类过于复杂,很难确定分子的类型。几个字母对象的共识(例如在字符串添加期间)通常很困难。

在没有具体计划如何加强或替换现有结构的情况下,决定完全取消Bio.Aplphabet模块。