GenBank数据库_数据库名称 - 线报百科mbji.cn

GenBank数据库

数据库名称

GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

数据库

数据库包括序列文件

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核苷酸碱基排列顺序和注释两部分。

结构及特性

介绍序列文件的结构

许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。GenBank序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。

特性

序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。[链接1.2.3.1.1-1]。

序列条目

关键词

序列条目的关键字包括LOCUS （代码），DEFINITION （说明），ACCESSION （编号），NID符（核酸标识），KEYWORDS （关键词），SOURCE （数据来源），REFERENCE （文献），FEATURES （特性表），BASE COUNT （碱基组成）及ORIGIN （碱基排列顺序）。先版的核酸序列数据库将引入新的关键词SV （序列版本号），用“编号.版本号”表示，并取代关键词NID。LOCUS （代码）：是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。

简单描述

说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。ACCESSION （编号）：具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此编号为准。KEYWORDS （关键词）字段：由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中环氧化酶-2 （cyclooxygenase-2），前列腺素合成酶（prostaglandin synthase）。SOURCE （数据来源）字段：说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血（umbilical vein）。次关键字ORGANISM （种属）指出该生物体的分类学地位，如本例人、真核生物等等（详见图4.1）。REFERENCE （文献）字段：说明该序列中的相关文献，包括AUTHORS （作者），TITLE （题目）及JOURNAL （杂志名）等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。

文献

摘要

该代码实际上是个超文本链接，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。FEATURES （特性表）：具有特定的格式，用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库，如本例中的分类数据库（taxon 9606），以及蛋白质序列数据库（PID：g181254）。

位置

序列中各部分的位置都在表中标明，5’非编码区（1-97），编码区（98-1912），3’非编码区（1913-3387），多聚腺苷酸重复区域（3367-3374），等等。翻译所得信号肽以及最终蛋白质产物也都有所说明。当然，这个例子只是特性表的部分注释信息，但已经足以说明其详细程度。接下来是碱基含量字段，给出序列中的碱组成，如本例中1010个A，712个C，633个G，1032个T。ORIGIN行是序列的引导行，接下来便是碱基序列，以双斜杠行“//”结束。

参考资料

最新修订时间：2024-03-17 00:28

条目作者

小编

资深百科编辑

概述

数据库

结构及特性

参考资料