分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即
基因组数据库、核酸和蛋白质一级结构序列数据库、生物大分子(主要是蛋白质)三维空间结构数据库、以上述3类数据库和文献资料为基础构建的二次数据库。
基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定。这些数据库是分子生物信息学的基本数据资源,通常称为基本数据库,初始数据库,也称一次数据库。
根据
生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。
近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个二次数据库和复合数据库,也称专门数据库、专业数据库、专用
数据库。
一般说来,一次数据库的数据库量大,更新速度快,用户面广,通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例如,欧洲生物信息学研究所用
Oracle数据库软件管理、维护核酸数据库EMBL。
而
基因组数据库GDB的管理、运行则基于
Sybase数据库系统,即使是安装其镜象。也需要有Sybase支撑。Oracle和Sybase均为流行的数据库管理商业软件。
而二次数据库的容量则要小得多,更新速度也不象一次数据库那样快,也可以不用大型商业数据库软件支撑。许多二次数据库的开发基于Web浏览器,使用超文本语言HTML和Java程序编写的图形界面,有的还带有搜索程序。
二次数据库种类繁多,以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库TransFac,真核生物启动子数据库EPD,
克隆载体数据库Vector,密码子使用表数据库CUTG等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库Prosite,蛋白质功能位点序列片段数据库Prints,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks。以具有特殊功能的蛋白为基础构建的二次数据库有
免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。
以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如
蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据库FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计研究的专门数据库。
此外,酶、
限制性内切酶、辐射杂交、氨基酸特性表、序列分析文献等,也属于二次数据库或专门数据库。
法国生物信息研究中心Infobiogen生物信息
数据库目录DBCat搜集了主要400多个数据库的名称、内容、数据格式、联系地址、网址等详细信息,使用户对生物信息数据库有一个详尽的了解。
此外,国际上许多生物信息中心建有生物信息学和基因组信息资源网络导航系统其中美国Oak Ride国家实验室人类基因组信息资源导航系统和英国基因组图谱资源中心(Human Genome Mapping Resource Centere,简称HGMP)的GenomeWeb所列网址最为详尽,搜集了世界各地基因组中心、基因组数据库、基因组图谱、基因组实验材料、基因突变、遗传疾病、以及生物技术公司、实验规程、网络教程、用户手册等几百个网址。