Biopython – Entrez 数据库连接
NCBI 提供了一个名为 Entrez 的在线搜索系统。这提供了对广泛的分子生物学数据库的访问,它还提供了一个集成的全局查询系统,支持布尔运算符和字段搜索。结果从所有数据库返回,其中包含来自每个数据库的点击次数、原始数据库链接等信息。
为此,Biopython 有一个名为Bio.Entrez的 Entrez 特定模块。Entrez 模块从 Entrez 搜索系统返回的 XML 文件中提取信息,并将其显示为Python字典和列表。连接数据库的步骤如下:
方法
- 导入所需的模块。
- 设置电子邮件以识别谁已连接。
- 设置Entrez工具参数,默认为Biopython。
- 调用einfo()方法以获取有关每个数据库的信息。
- 阅读einfo()方法提供的信息。
- 这样获取的数据是XML格式的,所以要在Python对象中使用read()方法来获取这些数据
- 现在记录是只有一个键的字典格式。
- 通过访问DbList键,返回一个数据库列表。
生成的程序应该类似于下面给出的代码:
Python3
# Import libraries
from Bio import Entrez
# Setting email
Entrez.email = 'jeetesh1@yopmail.com'
# Setting Entrez tool parameter
Entrez.tool = 'Demoscript'
# Gathering information
info = Entrez.einfo()
# Reading Info as XML
#data = info.read()
# Parsing info as python object
record = Entrez.read(info)
# Getting record key
record.keys()
# Parsing records
record[u'DbList']
输出: