比较
基因组学是基于
基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的 功能、表达机理和
物种进化的学科。
比较基因组学(Comparative Genomics)利用
模式生物基因组与
人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。
模式生物基因组研究揭示了人类疾病基因的功能,利用基因顺序上的
同源性克隆人类疾病基因,利用模式
生物实验系统上的优越性,在
人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。
直系同源的序列因
物种形成(
speciation)而被区分开(separated):若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么
新物种中的基因是直系同源的;
旁系同源的序列因
基因复制(gene duplication)而被区分开(separated):若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。
直系同源的一对序列称为直系同源体(orthologs),
旁系同源的一对序列称为旁系同源体(paralogs)。
直系同源体通常有相同或相似的功能,但对旁系同源体则不一定:由于缺乏原始的自然选择的力量,复制出的
基因副本可以自由的变异并获得新的功能。
通过对不同
亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码
调控序列及给定物种独有的序列。而基因组范围之内的
序列比对,可以了解不同物种在
核苷酸组成、同
线性关系和
基因顺序方面的异同,进而得到
基因分析预测与定位、生物系统发生进化关系等方面的信息。
比较基因组学的基础是相关生物基因组的
相似性。两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖先基因组进化而来,两种生物在进化的阶段上越接近,它们的基因组
相关性就越高。如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出
同线性(synteny),即基因序列的部分或全部保守。这样就可以利用模基因组之间编码顺序上和结构上的
同源性,通过已知基因组的作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明
物种进化关系及基因组的内在结构。
生物其中一个特征是进化,比较基因组学同样以进化理论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在
系统发生树中的进化关系。基因组信息的增多使得在基因组水平上研究
分子进化、基因功能成为可能。通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,就可以对与生命至关重要的基因的结构及其调控作用有所了解。但由于生物基因组中约有1.5%~14.5%的基因与“横向迁移现象”有关,即基因可以在同时存在的种群间迁移,这样就会导致与进化无关的序列差异。因此在系统发生分析中需要建立较完整的
生物进化模型,以避免
基因转移和欠缺合适的多物种共有
保守序列的影响。
同种群体内基因组存在大量的变异和
多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的
易感性和对药物与
环境因子不同反应的遗传学基础。
单核苷酸多态性(single-nucleotide polymorphism,
SNP)是指在基因组水平上由于单个核苷酸位置上存在转换或颠换等变异所引起的
DNA序列多态性。根据SNP 在基因中的位置,可分为
基因编码区SNP(coding-region SNP,cSNP)、基因周边SNP(perigenic SNP,pSNP)以及基因间SNP(intergenic SNP,iSNP)等3 类。2005年2月17日公布的第一份人类基因
多态性图谱是依据基因“连锁不平衡原理”,利用
基因芯片在71 个欧洲裔美国人(
白色人种)、非洲裔美国人(
黑色人种)和汉族华裔美国人(
黄色人种)中鉴别出了158 万个单一
核苷酸变异的DNA 位点,这个图谱将有助于预测某些疾病发生的可能性以及施以最佳治疗方案,在实现基于基因的
个体化医疗目标的征途上走出了重要的一步。
在
全基因组测序和
基因芯片技术发明前,受限于基因组内高通量DNA
拷贝数检测手段,人们对全基因组范围内的拷贝数
多态性(copy number polymorphism,CNP)数量和分布知之甚少。2004年,全球内数个“
人类基因组计划”研究基地意外地发现,表型正常的人群中,不同的个体间在某些基因的拷贝数上存在差异,一些人丢失了大量的
基因拷贝,而另一些人则拥有额外、延长的基因拷贝,研究人员称这种现象为“
基因拷贝数多态性”。正是由于CNP 才造成了不同个体间在疾病、食欲和药效等方面的差异。研究表明,平均2 个个体间存在11 个CNP的差异,CNP 的
平均长度为465 kb,其中半数以上的CNP 在多个个体中重复出现,并经常定位于其他类型的
染色体重排附近。