SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括
蛋白质的功能、转录后修饰、特殊位点和区域、
二级结构、
四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列
变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和
蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
SWISS-PROT创建于1986年,由瑞士生物信息学研究所(Swiss Institute for Bioinformatics,SIB)和欧洲生物信息学研究所(European Bioinformatic Institute,EBI)共同协作维护。该数据库到2001年末共收录102708个序列数据,包含37803202个氨基酸。在SWISS-PROT数据库各种氨基酸的分布中,亮氨酸、丙氨酸、丝氨酸、甘氨酸、缬氨酸、谷氨酸占较高的比例,而组氨酸、
半胱氨酸、苯丙氨酸等占的比例较小(表)。SWISS-PROT数据库现有的序列数据涉及1202种期刊的92845篇文献。被引用100篇文献以上的期刊有91种,其中经常被引用的前20种期刊(表)被引用次数皆在1000次以上,合计贡献文献48314篇,占总被引用文献数的52.04%,说明这些期刊是发表蛋白质序列相关信息的主要文献源。
SwissProt采用了和EMBL核酸序列数据库相同的格式和双字母标识字。这种双字母的标识字对于数据库的管理维护比较方便,但用户在使用时却不很方便,特别对数据库格式不很熟悉的用户。ExPASy开发了面向生物学家的、基于浏览器的用户界面,特别是用可视化方式表示氨基酸特征表,使用户对序列特性一目了然,如二硫键、跨膜螺旋、二级结构片段、
活性位点等。截止1998年6月,SWISS-PROT数据库包含约7万条序列,这些序列涵盖了5千多个不同种属,其中大部分来自于几种主要
模式生物,如人、小鼠等。
SWISS-PROT数据库的结构与其它
蛋白质序列数据库不同。给出SWISS-PROT数据库中一个序列条目的实例。每一行由两个字母起始,用来说明每一行所代表的信息。起其中第一行以ID开始,最后一行以双斜杠//结束。ID行表示该序列的名称是OPSD_SHEEP,共有348个
氨基酸残基。SWISS-PROT数据库的ID包含一定信息,如本例中OPSD表示蛋白质名称缩写,而SHEEP表示该蛋白质分子来自于哪个物种,中间用下划线分隔。即这一蛋白序列是来源于绵羊的
视紫红质(rhodopsin)。序列条目的标识符ID随着版本的更新有可能改变,因此有必要采用能够唯一识别该序列条目的其它标识符。SWISS-PROT采用AC(accession number)作为表示某个特定序列的代码,具有唯一性和永久性。在文献中引用某个序列时,应以AC为准,而不是以序列名称或ID为准。本例中,代码AC为P02700。采用AC代码的另一个好处是便于计算机处理。如果在AC行出现了几个代码值,那么应以第一个为准,它表示该序列在当前版本中的代码。下面的DT行提供了蛋白质序列提交到数据库的时间,及最近一次修改的时间等信息。描述行(DE)可以有一行或几行,提供了对该蛋白质的简单说明。此例中,说明该蛋白质为视紫红质。下面的几行中提供了有关该蛋白质的基因名(GN)、物种来源(OS)和分类学位置(OC)等信息。接下来是与该蛋白质相关的基本注释信息,包括文献信息、与
测序有关的信息、以及对该蛋白质序列分析得到的与结构或突变相关的信息等。这些注释为用户提供了非常有价值的信息。基本注释信息后,是说明行(CC)。在CC行中按主题进行区分,其中,FUNCTION说明该蛋白质的功能,PTM说明
翻译后修饰,TISSUE SPECIFICITY说明组织专一性,SUBCELLULAR LOCATION说明
亚细胞定位,SIMILARITY说明了与该蛋白质序列具有相似性或相关的某个
蛋白质家族,等等。蛋白质序列具有与另一个蛋白质序列数据库PIR的链接、与GPCR专门数据库的链接,以及与蛋白质序列
模体数据库
PROSITE的链接和与
蛋白质结构域数据库ProDom的链接。在DR行之后,是关键字行(KW)和特征表行(FT)。特征表包括对该序列特性的进一步注释,包括跨膜螺旋等
超二级结构单元、配体结合位点、翻译后修饰位点等。特征表的每一行有一个关键字(如TRANSMEM)、特征序列的氨基酸残基位置(如37-61),以及注释信息的性质(如POTENTIAL)等。SWISS-PROT数据库中的序列数据与蛋白质前体对应,如果想要获得成熟蛋白质的序列,可以参考特征表所提供的信息,即根据特征表所提供的信号(SIGNAL),转运区(TRANSIT)或前肽(PROPEP)等信息来推断成熟蛋白质或多肽序列。此外,CHAIN和PEPTIDE两个关键字用来表示成熟蛋白质的位置。SWISS-PROT数据库的格式便于通过计算机软件进行查询,即通过对每行起始的标识字建立索引文件,即可方便地找到某一字段。