蛋白质序列
数据库指应用计算机功能分析生物学信息的数据库。应用计算机的运算法则,比较DNA和蛋白质序列而检测结构、功能和序列之间的进化关系。各种基因组的序列产生大量的DNA序列数据和生物信息,已经被应用于研究基因的功能,预测以前未知的基因功能。人们的注意力主要集中在从仅有的氨基酸序列预测
蛋白质结构和功能。
由于
蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序列。蛋白质序列数据库的雏形可以追溯到60年代。60年代中期到80年代初,美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表,主要用来研究蛋白质的进化关系。1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database,简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR,[Barker等, 2000]。
序列数据库是生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或
氨基酸残基顺序为基本内容,并附有注释信息。注释信息包括两部分,一部分由计算机程序经过序列分析由计算机程序生成,另一部分则依靠生物学家通过查阅文献资料而获得。序列数据库从一个侧面反映了信息资源的传播从印刷品到电子媒体再到网络的发展趋势。
PIR(Protein Information Resource)由佐治棠大学建立,网址:http://pir.georgetown.edu,是一个蛋白质信息学的公共信息源及支持服务于一体的资源网站。它致力于基因组学和
蛋白质组学的研究及科学探索。该蛋白质序列数据库的雏形可以追朔到60年代。1966年美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以《蛋白质序列和结构地图集》(Atlas of Protein Sequence and Structure)一书的形式发表,主要用来研究蛋白质的进化关系,该书到1979年已出版了5版和3个增补本后不再有新版。1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。1988年,美国华盛顿的乔治城大学全国生物医学研究基金会(NBRF)、日本东京理科大学的日本国际蛋白质信息数据库(Japanese International Protein Information Database,简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)三家实验室共同合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR,PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释;而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。
除了PIR外,另一个重要的蛋白质序列数据库则是SWISS-PROT(Protein Sequence Database)(http://www.expasy.ch/sprot/sprot-top.html)。该数据库由
瑞士日内瓦大学生化系A.Bairoch于1986年创建,由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,简称ExPASy)(http://www.expasy.ch/)的Web服务器除了开发和维护SWISS-PROT数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。
北京大学生物信息中心设有ExPASy的镜像。EBI/EMBL也参与SWISS-PROT的开发,并随EMBL数据库一起发行。SWISS-PROT蛋白质序列库是最为常用、注释最全、包含独立项最多的数据库,它包括其他蛋白质序列库中经过验证的全部序列,其注释及蛋白质的功能、结构域和活性位点、二级结构、
四级结构、翻译后修饰、与其他蛋白质的相似性、相关的疾病、处理的冲突等,数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SWISS-PROT数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及PROSITE、PRINTTS等10多个二次数据库的交叉引用代码。
另一个常用的蛋白质序列数据库是已知三维
结构蛋白质的一级结构序列数据库NRL3D(http://www-nbrf.georgetown.edu/pirwww/dbinfo/nrl3-d.html)。该数据库的序列是从三维结构数据库PDB中提取出来。除了序列信息外,NRL-3D包括二级结构、活性位点、结合位点、修饰位点等与
蛋白质结构直接有关的注释信息,对研究蛋白质结构功能关系和同源蛋白分子模型构建特别有用。
TrEMBL是瑞士生物信息学研究所的蛋白质序列数据库Swiss-Prot的一个增补本。TrEMBL增加了一些Swiss-Prot数据库中没有的
欧洲分子生物学实验室核甘酸序列。TrEMBL数据库分两部分,SPTrEMBL和REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SWISS-PROT数据库中。而REM-TrEMBL则包括其它剩余序列,包括
免疫球蛋白、
T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。网页提供了分析蛋白质序列和结构的工具和软件包,还提供了与其他分子生物学的资源和主要服务器的链接。
上述几个蛋白质序列数据库可以称为蛋白质序列一次数据库,或基本数据库。它们各有特点。NRL3D包含已知空间结构的序列,但数据量十分有限;SWISS-PROT的序列经过严格的审核,注释完善,但数据量较小。PIR数据量较大,但包含未经验证的序列,注释也不完善。TrEMBL和GenPept的数据量最大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。将上述数据库整合起来,构建复合数据库,或二次数据库,则有利于生物学家的使用。OWL混合蛋白质序列数据库(Composite protein sequences databases)http://www.bioc-hem.ucl.ac.uk/bsm/dbbrowser/OWL/owlconten-ts.html和NRDB就是根据这一原则构建的非冗余蛋白质序列数据库。这两个数据库均是由GenPept、PIR、SWISS-PROT、NRL3D等数据库复合而成。为使二次序列数据库中的序列具有较好的代表性,在构建复合数据库时,采取了某些序列取舍的标准,使用了一定的算法,并增加了与其它数据库的交叉引用,在某些方面具有一定的优点。