美国人类基因组计划中把其定义为:它是1个学科领域,包含着基因组信息的获取、处理、储存、分配、分析和解释的所有方面。这一定义一方面是要求发展有效的信息分析工具,构建适合于基因组研究的数据库用于搜集、管理、使用人类基因组和模式生物基因组的巨量信息。另一方面是配合实验研究确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出全部约10万个人类基因在染色体上的位置及包括基因在内的各种DNA片段的功能,释译人类基因组。
简介
近年来,随着人类基因组计划(HGP)在世界范围内的实施,产生了大量的基因组信息,分析这些信息是人类基因组研究必不可少的重要内容。
基因组信息学涉及基因组信息的获取、处理、存储、分配、分析和解释等所有方面。具体而言,就是要构建研究基因组的数据库,发展包括算法、软件、硬件在内的有效的信息分析工具以及完善与基因组研究相关的国际互联网络。它源于人类基因组计划。人类基因组共有约30亿个碱基对,对如此大量的信息数据进行搜集、存储及分配是生物学领域从未遇到过的问题。这些数据中包括编码人类全部蛋白质和结构
核糖核酸(RNA)的信息,以及调控这些蛋白质和核酸装配成生物体的信息。因此解读这些信息是一个很大的难题。基因组信息学的主要目标就是配合人类基因组计划的各项实验研究,测定人类基因组的完整核苷酸序列,确定约10万个人类基因在染色体上的位置,以及研究包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组。
主要内容
基因组信息学研究的主要内容包括两个部分:一是基因组相关数据的收集与管理;二是基因组数据内涵的分析与解释,也就是遗传密码的破译。
数据的搜集管理
到1998年8月,GenBank中收集的核酸序列已达2.532×106条,总共包含1.797×109个碱基。大量基因组数据的出现促进了数据库、分析工具以及网络快速发展。一个有效的数据库通常都具备友好的用户界面并配有多种应用软件,以便用户对原始数据作初步分析。在目前诸多数据库中,较著名的有GenBank、EMBL、GDB、ROB及PIR等。在建立
基因组数据库时,以下几个方面特别引起人们的重视:①建立基因组信息的评估与检测系统;②数据标准化;③进行基因组信息的可视化和专家系统的研究;④建立二级数据库和专业数据库。二级数据库和专业数据库的建立不仅会给用户带来很多方便,更重要的是在建立过程中专业人员提供的知识会对用户有很大的启发和帮助。著名的二级数据库有:
蛋白质结构分析数据库(SCOP)、受体数据库、克隆载体数据库等。
以因特网(Internet)为基础的基因组信息学信息传输网络是基因组信息收集、管理与使用的另一要素。目前随着互联网络的高速发展,与基因组信息相关的数据库都有了自己的网址和主页(Homepage),同时还在网上出现了很多与基因组信息相关的服务器,提供各种形式的信息服务。面对如此丰富的网上资源,各种网络资源地图是生物学工作者的最好的向导。
数据的分析
目前,人们已得到5种细菌和一种真菌的基因组全序列,几年后还可能得到人类和数十种微生物的基因组全序列。获得基因组全序列仅仅是整个研究的开始,分析基因组序列才是面临的真正巨大的挑战。基因组信息学在分析比较大量的基因组序列数据中起着关键的作用,各种基因组信息学方法越来越多地应用于蛋白功能预测、基因序列分析及物种间基因比较等方面的研究。
全基因组分析
基因组全序列分析的第一步工作之一就是寻找基因组序列中的可翻译部分,即
开放阅读框(ORF)。现有的方法之一是利用DNA序列上的转录和调节信号作为开放阅读框的识别标记。另一种方法是寻找与
已表达序列标志(EST)具有相似性的核苷酸片段。对于真核生物的基因组,为了正确区分外显子和内含子,需与已有的cDNA序列数据进行比较,才能推算出相应的氨基酸序列。
基因组序列的初步鉴定完成后,进一步的工作就是比较不同物种间基因组,基因组的比较已在原核生物、古细菌和至少一种真核生物之间进行,主要比较基因的功能和基因在染色体上的定位。对代谢途径的比较分析可导致代谢方面的新发现,也可对已知途径进行补充和修改。比较病原菌与非病原菌的基因组可发现新的病原性基因。比较在原核生物、古细菌和真核生物中都存在的蛋白质家族可发现具有高度保守序列的古蛋白。这些古蛋白很可能在进化早期阶段的简单有机体中扮演重要角色。
随着基因组序列测定技术的发展,人类将在短时间内获得大量的基因组序列数据。因此序列分析技术面临的另一个问题就是如何以更快的速度和更高的自动化程度处理大量的基因组数据。1994年出现的GeneQuiz就是一种专为大规模序列分析而编写的软件系统,并且经过改进,已发展成一套可以多种自动化水平运作的分析软件。另外欧洲生物信息学研究所(EBI)的SRS系统和
美国国家生物技术信息中心(MCBI)的Entrez也是性能优良的序列分析软件。
蛋白质结构预测
随着基因组计划的不断深入,人类已获得了越来越多的核酸序列数据。了解和预测这些核酸序列编码的蛋白质的结构和功能就成为生物学家所面临的另一重大课题。长期以来,较成功的蛋白结构预测方法都建立在分子进化推论的基础之上。即如果一个序列与其他一些结构已知的序列存在一级结构上相似时,那么它们在进化上也应存在相关性。近年来,由于计算机技术的发展以及大量高精度结构数据的积累,人们在蛋白结构预测领域取得了较大进展,尤其是在二级结构预测领域,其准确性已由以前的不到60%提高到目前的72%。二级结构预测的进展也推动了折叠识别和三维结构模建等蛋白质高级结构预测领域的发展。目前有关高级结构预测方面的软件层出不穷,但由于功能还不很完善,因此对于非
蛋白质结构领域内的生物学家而言,在使用这些软件进行结构预测时,应充分认识到预测结果的局限性,以免过分依赖预测结果。
蛋白质功能预测
得到一个新的蛋白质序列后,需要解决这样一些问题:这个蛋白是否属于某个已知功能的蛋白家族?假如是的话,这个蛋白与该家族其他成员的联系有多紧密?这种联系在功能上意味着什么?这个蛋白的哪个区域与该家族对应?该家族中的相应区域是否与功能特点有关?这个区域中那些与功能有关或可能与功能有关的氨基酸是否保守?这些问题通常需要借助合适的数据库搜索软件才能解决。
通过合适的序列相似性搜索算法可对未知蛋白质进行家族归类。最常用的是BLAST算法,它主要基于相似片段的比较。通常一系列相似的序列可归为一个家族,并具有该家族特有的三维结构。在此基础上建立的三维结构和序列相结合的比较算法就具有更强的搜索能力。更高水平的搜索算法是基于三维结构的相似性比较。有时,三维结构相似的蛋白质虽然序列相似性很低,但在功能上却同属于一个蛋白质超家族。因此,这种算法具有更强的搜索能力。
在整个基因组中,编码蛋白质的一系列核苷酸序列含有极丰富的生物学信息,而通过实验只能了解生物体总蛋白中一个部分蛋白质的功能,其余大量蛋白质功能的研究要靠基因组信息学来完成。但由于蛋白三维结构模建等方面还有许多理论问题尚未解决,蛋白质功能预测的错误率仍相当高,因此日前蛋白质功能的预测还只能基于其序列的相似性,即推测具有相似序列的蛋白质具有相近的生物学功能。
应用价值
人类基因组计划的目标是揭示人类疾病的遗传学基础,其最直接的应用价值还在新药研制方面。值得一提的是,随人类基因组计划同时进行的病原微生物和模式生物的全基因组序列测定结果也将广泛应用于新药的研制。目前对许多疾病的治疗,如心脏病、癌症、
神经系统疾病,都只能治标而不治本。当人们对疾病的病理遗传基础有了充分的认识后,就可开发出标本兼治的全新药物,从而大大提高全人类的健康水平。
新药研制的第一步是信息资料的搜集。虽然这一阶段的工作中开发者的知识背景特别重要,但也非常需要借助各种数据库和互联网的辅助作用,包括在线文献的查询、商业化学结构数据库的检索和生物学分析数据的调取等。除此以外,还需进行初期预研。初期预研虽然也涉及少量实验工作,但主要工作还是通过互联网到各种数据库中搜集疾病及其相关生化过程的资料,由于互联网上的信息是动态的,随时在更新和补充,因此搜集工作必须定期进行,直至得到足够的信息资料。
第二步工作就是选择鉴定与疾病治疗和新药开发有关的目标生物大分子。这一阶段的工作主要集中在两个方面:选择特定生物大分子为作用目标,建立合适的分析方法,以甄别一系列后续合成的小分子化合物的药效和药性;了解小分子化合物的作用机制。因此必须对与病理过程有关的基因进行详细的分析,包括基因序列的比较、性质功能的预测等。对已确定的与病理过程有关的基因,要进一步评估它们在开发新药过程中成功的可能性,最终确定其中的几个基因及其产物为目标分子。
第三步就是利用已确定的目标分子进行
高通量筛选(HTS),以得到有用的化合物。在传统的筛选过程中,可供筛选的化合物数量不多,因此可以用目标分子筛选所有的化合物。然而,化学合成技术的发展以及长期的积累使可供筛选的化合物的数量大大增加,因此必须对被筛选化合物进行选择,以降低工作量,提高效率。基因组信息学对从事这项工作的生物学家显得十分重要。同样,基因组信息学系统对
合成药物的化学家也有重要的指导作用,它可向化学家提供某些生物学信息,使合成工作具有更高的目的性,提高药物合成的产率。
成功的
高通量筛选之后得到少量的具有高活性的主导化合物。在这些化合物最终成为可用的药物以前,还需对它们的各种性质进行优化改进,如增大效力、提高选择性、降低毒性等等。基因组信息学所掌握目标分子结构方面的信息越多,它在改进药物的性质方面所起的作用就越大。
急需解决的问题
基因组信息学在新药研制上已取得了相当大的进步,但总的说来,还有两个问题急需解决。首先是如何更高效地利用互联网资源,即如何获取有用的信息,而不至于淹没于信息垃圾中。这需要跨学科进行合作,将传统的信息科学知识与IT技术、基因组信息学结合起来。其次,要规划出这类软件的发展战略,提高通用性,实现跨公司、跨研究机构的使用。同时还要为这类软件留有更大的改进余地,以便在至少5年内保持较高的生命力。这同样也需要生物学家、数学家以及网络专家的共同合作。