蛋白质组研究本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识,这个概念最早是在1995年提出的。蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理的阐明及攻克提供理论根据和解决途径。
概念起源
自从
人类基因组计划启动以来,公共媒体不断向大众勾画着一幅幅美丽的图景,使人们认为,一旦科学家把各种生物基因组的全部碱基排列顺序测定清楚,生命的遗传奥秘就会显露无余。但是,真实的图景远不像普通人想象的那样简单。遗传信息并不直接参与生命活动,而是通过控制蛋白质的形成间接地指导有机体的新陈代谢。也就是说,一个基因所含的遗传信息,通过一系列复杂的反应,最终导致了相应的蛋白质形成,蛋白质再参与到生命的各种活动中去。所以,要想真正揭开遗传的奥秘,仅仅了解基因组的碱基排列顺序是很不够的,还必须认识基因的产物——
蛋白质。 与基因组研究的战略一样,科学家们已不再局限于对个别蛋白质进行研究,而是对细胞或组织内成千上万的蛋白质同时进行研究,即
蛋白质组学(proteomics)。2001年2月15日,英国《自然》周刊在发布人类基因组框架图时,同期登载了一条关于人类蛋白质组研究组织(Human Proteome Organization,HUPO)成立的消息,标题就叫“现在是蛋白质组了”。但科学家们也意识到,蛋白质组研究要比基因组研究复杂得多,是剪不断理还乱的“怪圈”
蛋白质组学
存在于细胞核里的DNA构成了
基因组。基因组作为遗传信息的载体,最根本的特征就是稳定不变。对
单细胞生物而言,不论在什么样的生长条件下,其基因组始终保持不变。对多细胞生物来说,每一个个体的基因组,在构成个体的不同种类的细胞里都是一样的,知道了个体内某一细胞内的基因组就知道了该个体所有细胞的基因组。然而对于蛋白质组而言,由于蛋白质是生命活动的主要执行者,不同类型的细胞或同一个
细胞在不同的活动状态下,其蛋白质组的蛋白质种类构成却是很不一样的。 所以,
蛋白质组与
基因组的一个重要差别就是蛋白质组具有多样性。这种差别要求我们对“蛋白质组”的概念要进行仔细的分析。目前蛋白质组比较公认的定义是:一个基因组内所有
基因表达的全部蛋白质。这种定义从字面上容易理解,但在实际中却很成问题。
任何一种生物的基因组,都是由不编码蛋白质的
核苷酸序列和编码蛋白质的核苷酸序列(基因)所组成。基因通常只是基因组的一小部分,例如编码人类蛋白质的核苷酸序列大约占
人类基因组的2%。要想从混杂有大量非编码核苷酸序列的基因组中找出基因,如同沙里淘金。基因组研究的结果表明,一个基因组拥有的“基因”数目是由两部分组成的:通过实验证明确有蛋白质产物的真实基因、根据起始密码和终止密码序列所确定的潜在基因。生物学家们把这两类基因都称为“
开放阅读框”(open reading frame,ORF)。因此,一个基因组内的基因数目通常是指ORF的数目。
当一个基因组的全序列测定之后,确定其含有的ORF就成为了主要任务,称为基因注释。目前用于基因注释的方法还有较高的出错率,尤其对于那些存在不连续基因(即在一个基因内插有非编码的核苷酸序列)的复杂基因组,出错的问题更为突出。此外,这些ORF是否与蛋白质存在一一对应关系也是一个问题。一方面,人们已经发现有许多“
假基因”(pseudogene)的存在,这些假基因有和真基因相同的ORF,但却从不表达。另一方面,由于存在RNA水平上遗传信息的加工——
mRNA编辑(RNA editing),以及蛋白质水平上遗传信息的加工——蛋白质剪接(protein splicing),许多蛋白质很难找到直接对应的ORF。如果我们不能确定基因组的“所有”基因,我们从何知道蛋白质组的“全部”蛋白质?
显然,确定基因数目最可靠的方法是通过研究蛋白质组来进行。据最新统计,人类基因组拥有的基因数目大约是在3万到4万个之间。如果能够把人体252种细胞内的全部蛋白质都给鉴定出来,那么我们就有可能真正知道人类基因组的所有基因。但是这样一来,基因组和蛋白质组形成了“循环定义”:蛋白质组是以基因组拥有的所有基因的表达产物来构成,而所有基因的确定又必须通过蛋白质组来给予肯定。
蛋白质组学的研究技术目前还有很多不完善之处,许多新技术正在研发之中。因此,蛋白质组学的发展是受技术限制的,也是受技术推动的。
如果说未知世界是一个无边无际的海洋,那么我们的知识就是这海洋里一个小小的岛屿。随着科学的进步,
知识的岛屿会不断地扩张。但我们同时会发现,环绕着知识岛的未知领域也在增长。我们的研究可以逐渐地扩大人类知识的领地,但永远不能穷尽宇宙的奥秘。基因组也好,蛋白质组也好,都不会是人类认识生命的终点。
研究意义
2001年的Science杂志已把蛋白质组学列为六大研究热点之一,其“热度”仅次于干细胞研究,名列第二。蛋白质组学的受关注程度如今已令人刮目相看。
随着
人类基因组计划的实施和推进,生命科学研究已进入了
后基因组时代。在这个时代,
生命科学的主要研究对象是
功能基因组学,包括结构基因组研究和蛋白质组研究等。尽管现在已有多个物种的基因组被测序,但在这些基因组中通常有一半以上基因的功能是未知的。目前功能基因组中所采用的策略,如基因芯片、基因表达序列分析(Serial analysis of gene expression, SAGE)等,都是从细胞中mRNA的角度来考虑的,其前提是细胞中mRNA的水平反映了蛋白质表达的水平。但事实并不完全如此,从DNA mRNA 蛋白质,存在三个层次的调控,即
转录水平调控(Transcriptional control ),翻译水平调控(Translational control),翻译后水平调控(Post-translational control )。从mRNA角度考虑,实际上仅包括了转录水平调控,并不能全面代表蛋白质表达水平。实验也证明,组织中
mRNA丰度与蛋白质丰度的相关性并不好,尤其对于低丰度蛋白质来说,相关性更差。更重要的是,蛋白质复杂的翻译后修饰、蛋白质的亚细胞定位或迁移、蛋白质-蛋白质相互作用等则几乎无法从mRNA水平来判断。毋庸置疑,蛋白质是生理功能的执行者,是生命现象的直接体现者,对
蛋白质结构和功能的研究将直接阐明生命在生理或病理条件下的变化机制。蛋白质本身的存在形式和活动规律,如翻译后修饰、蛋白质间相互作用以及蛋白质构象等问题,仍依赖于直接对蛋白质的研究来解决。虽然蛋白质的可变性和多样性等特殊性质导致了蛋白质研究技术远远比核酸技术要复杂和困难得多,但正是这些特性参与和影响着整个生命过程。 传统的对单个蛋白质进行研究的方式已无法满足后基因组时代的要求。这是因为:(1) 生命现象的发生往往是多因素影响的,必然涉及到多个蛋白质。(2) 多个蛋白质的参与是交织成网络的,或平行发生,或呈级联因果。(3) 在执行生理功能时蛋白质的表现是多样的、动态的,并不像基因组那样基本固定不变。因此要对生命的复杂活动有全面和深入的认识,必然要在整体、动态、网络的水平上对蛋白质进行研究。因此在上世纪90年代中期,国际上产生了一门新兴学科-蛋白质组学(Proteomics),它是以细胞内全部蛋白质的存在及其活动方式为研究对象。可以说蛋白质组研究的开展不仅是生命科学研究进入后基因组时代的里程碑,也是后基因组时代生命科学研究的核心内容之一。
发展历史
虽然第一次提出蛋白质组概念是在1994年,但相关研究可以追溯到上世纪90年代中期甚至更早,尤其是80年代初,在基因组计划提出之前,就有人提出过类似的蛋白质组计划,当时称为Human Protein Index计划,旨在分析细胞内的所有蛋白质。但由于种种原因,这一计划被搁浅。90年代初期,各种技术已比较成熟,在这样的背景下,经过各国科学家的讨论,才提出蛋白质组这一概念。
国际上蛋白质组研究进展十分迅速,不论基础理论还是技术方法,都在不断进步和完善。相当多种细胞的
蛋白质组数据库已经建立,相应的国际互联网站也层出不穷。1996年,澳大利亚建立了世界上第一个蛋白质组研究中心:Australia Proteome Analysis Facility ( APAF )。丹麦、加拿大、日本也先后成立了蛋白质组研究中心。在美国,各大药厂和公司在巨大财力的支持下,也纷纷加入蛋白质组的研究阵容。去年在瑞士成立的GeneProt公司,是由以蛋白质组数据库“SWISSPROT” 著称的蛋白质组研究人员成立的,以应用蛋白质组技术开发新药物靶标为目的,建立了配备有上百台质谱仪的高通量技术平台。而当年提出Human Protein Index 的美国科学家Normsn G. Anderson也成立了类似的蛋白质组学公司,继续其多年未实现的梦想。2001年4月,在美国成立了国际人类蛋白质组研究组织(Human Proteome Organization, HUPO),随后欧洲、亚太地区都成立了区域性蛋白质组研究组织,试图通过合作的方式,融合各方面的力量,完成人类蛋白质组计划(Human Proteome Project)。
蛋白质组学虽然问世时间很短,但已经在研究细胞的增殖、分化、异常转化、肿瘤形成等方面进行了有力的探索,涉及到白血病、乳腺癌、
结肠癌、膀胱癌、
前列腺癌、肺癌、
肾癌和
神经母细胞瘤等,鉴定了一批肿瘤相关蛋白,为
肿瘤的早期诊断、药靶的发现、疗效判断和预后提供了重要依据。
鉴于蛋白质组学发展前景的重要性和技术的先进性,西方各主要发达国家纷纷投巨资全面启动蛋白质组的研究。如
美国国立卫生研究院,美国能源部、
欧共体等均启动了不同
生物蛋白质组的研究并取得明显进展,一批高质量的研究论文相继在国际著名学术刊物发表。由于蛋白质组学研究比基因组学研究更接近实用,有着巨大的市场前景,企业与制药公司也纷纷斥巨资开展蛋白质组研究。独立完成人类基因组测序的Celera公司已宣布投资上亿美元于此领域;日内瓦蛋白质组公司与布鲁克质谱仪制造公司联合成立了国际上最大的蛋白质组研究中心。为了促进国家与地区性的蛋白质组的发展、合作与交流,成立了国际
人类蛋白质组组织 (HUPO),在法国召开了首届国际蛋白质组大会,并迅即在北美、欧洲、韩国、日本成立了相应的分支机构。蛋白质组学已成为西方各主要发达国家、各跨国制药集团竞相投入的“热点”。
研究难度
要找出一个生物体基因组的所有基因和相应的全部蛋白质,是一项非常困难的任务。
没有标尺的度量
不同生物的基因组大小有着很大的差别。例如
芽殖酵母基因组有1200万
碱基对,而人类基因组则为32亿碱基对。基因组不论大小,其核苷酸的数量总是很明确的。然而,对蛋白质组来说,蛋白质的种类究竟有多少就很难说了。上面说过,蛋白质组可以被定义为基因组的
基因表达的所有蛋白质,但这一定义没有考虑蛋白质的化学修饰。细胞内的大部分蛋白质通常在合成结束后,都被进行过化学基团的修饰,如
磷酸化、
糖基化、酰基化等等。修饰过的蛋白质的物理化学性质和生物学功能,均不同于未修饰的蛋白质。如果把一个修饰蛋白视为一种新的蛋白质,那么蛋白质组的蛋白质数量,将远远大于相应的基因组的基因数量。在这个意义上,人们估计人类蛋白质组的蛋白质种类大约在20万到200万之间。显而易见,蛋白质组蛋白质数量的估计是非常模糊的。
从蛋白质修饰的角度来看,不仅仅是蛋白质种类大大增加,更重要的是,由于不存在度量修饰蛋白质种类的尺度,人们也许永远不能像确定基因组核苷酸序列那样,准确地统计出生物体内蛋白质组的蛋白质总数。如果说表达产生的蛋白质种类可以根据基因的数目来确定,那么修饰形成的蛋白质种类只有依靠对蛋白质的直接研究来判定。生命是一个永远处于变化中的开放系统。既然蛋白质的修饰和生命活动密切相关,因而这种研究是没有止境的。从这种意义上来说,对基因组核苷酸序列的测定是一种“有限”的工作,而对蛋白质组蛋白质种类的确定则是一种“无限”的工作。
四维尺度研究
DNA作为
遗传信息的载体,以双螺旋的形式存在于细胞核内,在细胞一代代的繁衍过程中其碱基序列始终保持不变,因此在测定基因组的DNA序列时不需要考虑时空的影响。而在蛋白质组的研究中,时间和空间的影响都是不可忽略的。
首先,在个体发育的不同阶段或细胞的不同活动时期,细胞内产生的蛋白质种类是不一样的。此外,不同蛋白质的寿命也不一样。有些蛋白质在合成后成为细胞的结构成分,相当稳定;而有些蛋白质在产生后被用来进行某种细胞活动,比如
基因转录的调控,工作一旦完成就被迅速降解。因此,在分析蛋白质组的蛋白质成分时,需要把时间作为一个重要的参数。对于在不同时间过程中蛋白质组的组成成分的比较分析——差异蛋白质组研究,已成为当前蛋白质组学的主要内容。
蛋白质的另一个重要特征是,不同的蛋白质通常分布在细胞的不同部位,它们的功能与其空间定位密切相关。要想真正了解蛋白质的功能,通常还需要知道蛋白质所处的空间位置。更为重要的是,许多蛋白质在细胞里不是静止不动的,它们在细胞里常常通过在不同亚细胞环境里的运动发挥作用。例如细胞周期的调控过程、细胞的信号转导和转录调控,都依赖于蛋白质空间位置的变化和运动。因此,蛋白质组学中又派生了一个与空间紧密相关的新研究领域——
亚细胞蛋白质组学。这种
亚细胞蛋白质组可能是细胞器蛋白质组,如高尔基体蛋白质组;也可能是比细胞器还要小的组分,如核膜的蛋白质组。
复杂的关系网络
在不了解基因组序列的情况下,人们曾经推测,生命的复杂程度是由基因组的基因数量来决定的。也就是说,生命的复杂程度越高,其基因组拥有的基因数目越大。但随着各种生物的基因组全序列的测定,科学家们认识到情况并非如此。线虫(C. elegans)是一种低等动物,其基因组的基因数为1.9万多个。而人类基因组框架图的完成表明,人基因组的基因总数仅仅比线虫多1.5万个左右,远不是预期的10万到15万。刚刚完成的水稻基因组框架图更让人吃惊,其基因总数在4.6万到5.5万之间,比人的基因还要多。显然,基因数目与生命的复杂程度没有直接的相关。那么,在生命从简单到复杂,从低级到高级的进化过程中,究竟是什么因子体现了这种变化?
随着功能基因组研究的进展,人们已逐渐意识到,这种因子可能就是不同基因的产物蛋白质之间“排列组合”的复杂程度。也就是说,原始生命体中蛋白质之间的相互关系比较简单,而高级生命体中蛋白质之间则具有较为复杂的关系网。
蛋白质组具有一个不同于基因组的重要特性,即蛋白质彼此间有着直接的影响。某一个蛋白质功能的实现,通常离不开它与其他蛋白质之间的相互作用。也许可以说,不与其他蛋白质发生作用的“孤立蛋白质”根本就不存在。过去,科学家们因研究手段的限制,只能研究数个蛋白质之间的相互作用,而今天通过蛋白质组学的新方法,可以同时研究成千上万个蛋白质之间的相互作用。例如,
芽殖酵母基因组全部ORF的表达产物——共6000多个多肽,彼此间可能存在的作用情况已进行了分析,从中发现了9百多种可能的相互作用,涉及到1000多个蛋白质。科学家为这一类型的研究专门发明了一个新的名词——“相互作用组”(interactomes)。
相互作用组研究可以分为两类。第一类是研究蛋白质相互作用的网络。细胞内的许多活动如信号转导等,都是通过一个复杂而广泛的蛋白质相互作用网络实现的。相互作用组的另一类研究是
蛋白质复合体组成的分析。蛋白质复合体通常可以分为两种。一种是结构型的蛋白质复合体,如
核孔复合体,这一类通常比较稳定?鸦另一种则是功能型蛋白质复合体,例如负责转录的转录蛋白复合体、负责DNA复制的复制蛋白复合体等,这类复合体只有在执行功能时才聚合在一起,任务完成后就解离。当前,相互作用组研究已成为蛋白质组研究领域的一个重要内容。
技术局限的烦恼
基因组的物质基础是DNA,它由两条螺旋状生物
大分子链组成,其中每一条链都由成千上万的核苷酸连接而成,这些核苷酸仅含有四种类型的碱基。基因组研究的核心任务,就是要测定DNA链上四种碱基的排列顺序。因此,
DNA测序技术是基因组研究中一个最基本和最主要的工具,这样一种单一的技术就能胜任基因组的研究工作。但是,在蛋白质组研究中,需要的研究技术远远不止一种,并且技术的难度也要大于基因组研究技术。
首先,由于蛋白质是由20种化学性质各异的氨基酸所组成,因此不同蛋白质的物理化学性质差别很大。例如,有些蛋白质易溶于极性溶剂,有些蛋白质则难溶于极性溶剂;有些蛋白质较稳定,有些蛋白质则易降解。此外,蛋白质的各种修饰和相互作用更增加了蛋白质的复杂性。仅仅通过一两种技术,显然不可能完成对蛋白质组内成千上万种不同性质的蛋白质的检测。
其次,不同种类的蛋白质的量在细胞内有着很大的差别。例如在酵母细胞里,有些细胞周期调控蛋白不到100个分子,而糖基酶则可能有200万个分子。据估计,蛋白质之间量的差别,竟可达106数量级。蛋白质组研究的特点是要同时分析各种各样的蛋白质,因此需要排除巨量的蛋白质类型的干扰,把微量的蛋白质类型从蛋白质混合物中鉴定出来。现有的蛋白质组研究技术,尚不能令人满意地完成这一任务。
简而言之,蛋白质组研究对技术的依赖性和要求远远超过
研究内容
早期蛋白质组学的研究范围主要是指蛋白质的表达模式(Expression profile),随着学科的发展,蛋白质组学的研究范围也在不断完善和扩充。蛋白质翻译后修饰研究已成为蛋白质组研究中的重要部分和巨大挑战。蛋白质-蛋白质相互作用的研究也已被纳入蛋白质组学的研究范畴。而蛋白质高级结构的解析即传统的结构生物学,虽也有人试图将其纳入蛋白质组学研究范围,但目前仍独树一帜。
蛋白质鉴定
可以利用一维电泳和
二维电泳并结合Western等技术,利用
蛋白质芯片和
抗体芯片及
免疫共沉淀等技术对蛋白质进行鉴定研究。
翻译后修饰
很多mRNA表达产生的蛋白质要经历翻译后修饰如磷酸化,糖基化,酶原激活等。翻译后修饰是蛋白质调节功能的重要方式,因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重要作用。
蛋白质功能确定
如分析酶活性和确定酶底物,
细胞因子的生物分析/配基-受体结合分析。可以利用基因敲除和反义技术分析基因表达产物-蛋白质的功能。另外对蛋白质表达出来后在细胞内的定位研究也在一定程度上有助于蛋白质功能的了解。Clontech的荧光蛋白表达系统就是研究蛋白质在细胞内定位的一个很好的工具。
临床医药
对人类而言,蛋白质组学的研究最终要服务于人类的健康,主要指促进分子医学的发展。如寻找药物的靶分子。很多药物本身就是蛋白质,而很多药物的靶分子也是蛋白质。药物也可以干预蛋白质-蛋白质相互作用。
在基础医学和疾病机理研究中,了解人不同发育、生长期和不同生理、病理条件下及不同细胞类型的基因表达的特点具有特别重要的意义。这些研究可能找到直接与特定生理或病理状态相关的分子,进一步为设计作用于特定靶分子的药物奠定基础。
研究方法技术
蛋白质组学的发展既是技术所推动的也是受技术限制的。蛋白质组学研究成功与否,很大程度上取决于其技术方法水平的高低。蛋白质研究技术远比基因技术复杂和困难。不仅
氨基酸残基种类远多于
核苷酸残基(20/4), 而且蛋白质有着复杂的翻译后修饰,如磷酸化和糖基化等,给分离和分析蛋白质带来很多困难。此外,通过
表达载体进行蛋白质的体外扩增和纯化也并非易事,从而难以制备大量的蛋白质。蛋白质组学的兴起对技术有了新的需求和挑战。蛋白质组的研究实质上是在细胞水平上对蛋白质进行大规模的平行分离和分析,往往要同时处理成千上万种蛋白质。因此,发展高通量、高灵敏度、高准确性的研究技术平台是现在乃至相当一段时间内蛋白质组学研究中的主要任务。当前在国际蛋白质组研究技术平台的技术基础和发展趋势有以下几个方面:
样品制备
通常可采用细胞或组织中的全蛋白质组分进行蛋白质组分析。也可以进行样品预分级,即采用各种方法将细胞或组织中的全体蛋白质分成几部分,分别进行蛋白质组研究。样品预分级的主要方法包括根据蛋白质溶解性和蛋白质在细胞中不同的细胞器定位进行分级,如专门分离出细胞核、
线粒体或
高尔基体等细胞器的蛋白质成分。样品预分级不仅可以提高低丰度蛋白质的上样量和检测,还可以针对某一细胞器的蛋白质组进行研究。 对临床组织样本进行研究,寻找疾病标记,是蛋白质组研究的重要方向之一。但临床样本都是各种细胞或组织混杂,而且状态不一。如肿瘤组织中,发生癌变的往往是上皮类细胞,而这类细胞在肿瘤中总是与血管、
基质细胞等混杂。所以,常规采用的癌和癌旁组织或肿瘤与正常组织进行差异比较,实际上是多种细胞甚至组织蛋白质组混合物的比较。而蛋白质组研究需要的通常是单一的细胞类型。最近在组织水平上的蛋白质组样品制备方面也有新的进展,如采用激光捕获微解剖(Laser Capture Microdissection, LCM) 方法分离癌变上皮类细胞。
样品分离和分析
利用蛋白质的等电点和分子量通过
双向凝胶电泳的方法将各种蛋白质区分开来是一种很有效的手段。它在蛋白质组分离技术中起到了关键作用。如何提高双向凝胶电泳的分离容量、灵敏度和分辨率以及对蛋白质差异表达的准确检测是目前
双向凝胶电泳技术发展的关键问题。主要趋势有第一维电泳采用窄pH梯度胶分离以及开发与双向凝胶电泳相结合的高灵敏度蛋白质染色技术,如新型的荧光染色技术。 质谱技术是目前蛋白质组研究中发展最快,也最具活力和潜力的技术。它通过测定蛋白质的质量来判别蛋白质的种类。当前蛋白质组研究的核心技术就是双向凝胶电泳-质谱技术,即通过双向凝胶电泳将蛋白质分离,然后利用质谱对蛋白质逐一进行鉴定。对于蛋白质鉴定而言,高通量、高灵敏度和高精度是三个关键指标。一般宝护神监视器的质谱技术难以将三者合一,而最近发展的质谱技术可以同时达到以上三个要求,从而实现对蛋白质准确和大规模的鉴定。
研究新技术
做过双向凝胶电泳的人一定会抱怨它的繁琐、不稳定和低灵敏度等缺点。发展可替代或补充双向凝胶电泳的新方法已成为蛋白质组研究技术最主要的目标。目前,
二维色谱 (2D-LC)、二维毛细管电泳 (2D-CE)、液相色谱-毛细管电泳 (LC-CE) 等新型分离技术都有补充和取代双向凝胶电泳之势。另一种策略则是以质谱技术为核心,开发质谱鸟枪法(Shot-gun)、毛细管电泳-质谱联用 (CE-MS)等新策略直接鉴定全蛋白质组混合酶解产物。随着对大规模蛋白质相互作用研究的重视,发展高通量和高精度的蛋白质相互作用检测技术也被科学家所关注。此外,蛋白质芯片的发展也十分迅速,并已经在
临床诊断中得到应用。
生物信息学
蛋白质组数据库是蛋白质组研究水平的标志和基础。瑞士的SWISS-PROT拥有目前世界上最大,种类最多的蛋白质组数据库。丹麦、英国、美国等也都建立了各具特色的蛋白质组数据库。生物信息学的发展已给蛋白质组研究提供了更方便有效的计算机分析软件;特别值得注意的是蛋白质质谱鉴定软件和算法发展迅速,如SWISS-PROT、Rockefeller大学、BHS宝护神、UCSF等都有自主的搜索软件和数据管理系统。最近发展的质谱数据直接搜寻
基因组数据库使得质谱数据可直接进行基因注释、判断复杂的拼接方式。随着基因组学的迅速推进,会给蛋白质组研究提供更多更全的数据库。另外,对肽序列标记的从头测序软件也十分引人注目。
发展趋势
在基础研究方面,近两年来蛋白质组研究技术已被应用到各种
生命科学领域,如细胞生物学、神经生物学等。在研究对象上,覆盖了
原核微生物、
真核微生物、
植物和
动物等范围,涉及到各种重要的
生物学现象,如信号转导、
细胞分化、
蛋白质折叠等等。在未来的发展中,蛋白质组学的研究领域将更加广泛。
在应用研究方面,蛋白质组学将成为寻找疾病分子标记和药物靶标最有效的方法之一。在对癌症、
早老性痴呆等人类重大疾病的
临床诊断和治疗方面蛋白质组技术也有十分诱人的前景,目前国际上许多大型药物公司正投入大量的人力和物力进行蛋白质组学方面的应用性研究。
在技术发展方面,蛋白质组学的研究方法将出现多种技术并存,各有优势和局限的特点,而难以象基因组研究一样形成比较一致的方法。除了发展新方法外,更强调各种方法间的整合和互补,以适应不同蛋白质的不同特征。另外,蛋白质组学与其它学科的交叉也将日益显著和重要,这种交叉是新技术新方法的活水之源,特别是,蛋白质组学与其它大规模科学如基因组学,生物信息学等领域的交叉,所呈现出的
系统生物学(System Biology)研究模式,将成为未来生命科学最令人激动的新前沿。