断裂基因中的
编码序列。外显子(expressed region)是
真核生物基因的一部分。它在剪接(Splicing)后会被保存下来,并可在
蛋白质生物合成过程中被表达为
蛋白质。外显子是最后出现在成熟
RNA中的基因序列,又称表达序列。
基因反应
剪接方式并不是唯一的(参看替代剪接),所以外显子只能在成体mRNA中被看出。即使是使用生物信息学方法,要精确预测外显子的位置也是非常困难的,外显子的识别及其拼接都是难题。真核生物的基因,其线性表达被内含子阻断,这就是所谓的
断裂基因(英语split
gene),该现象的
发现者Richard J.Roberts和Phillip A.Sharp获得了1993年诺贝尔奖。
表达序列
在
反式剪接中,不同
mRNA的外显子可以被接合在一起。外显子在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为
蛋白质。外显子是最后出现在成熟
RNA中的基因序列,又称表达序列。既存在于最初的转录产物中,也存在于成熟的RNA分子中的
核苷酸序列。术语外显子也指编码相应RNA外显子的
DNA中的区域。简言之,外显子就是指
真核细胞的基因在表达过程中能编码蛋白质的核苷酸序列。关键概念:比较不同物种的相关基因,发现相应的外显子序列通常是保守的,而
内含子序列则很少保守。编码蛋白质的序列通常处于
选择压力之下,内含子由于没有选择压力,因此比外显子的进化快得多。通过确定在多种生物中出现的片段来鉴定编码区域,而外显子的
保守性可以作为这种鉴定的基础。
人类大部分基因组序列都是被垃圾
DNA序列分隔成一段段,给定一个已知的目标蛋白质和基因组序列,在该基因组序列中找出一组子字符串(候选外显子),使得其拼接(剪接)与目标蛋白质最匹配(即去掉垃圾DNA序列)。一个强力方法是寻找基因组序列与目标蛋白质序列间的所有局部
相似性。若第一个取自基因组序列的子字符串展示了充分相似性于目标蛋白质,那么这个子字符串可被认为是一个推定的外显子。将推定外显子结构化为基因组序列中的
赋权区间,它可用三个参数(l、r、w)来描述,l、r分别是推定的外显子的左边、右边的位置,w为其权重。权重w可反该区间是一个外显子的可能性。链是不重叠赋权区间的任一集合,一个链的总权重是该链中所有区间的权重之和。给定一个推定的外显子集,寻找非重叠的推定的外显子的一个最大集。输入:赋权区间(推定的外显子)集。输出:该集合中区间的最大。
基因捕捉
外显子捕捉(exon trapping)是构建一种载体,从其插入片段中识别和回收外显子序列,从而克隆目的基因。捕捉外显子的载体pETV-
SD是一种反转录病毒穿梭载体(shuttle vector),即可在不同种生物中如
大肠杆菌和酵母,细菌和
哺乳动物细胞等进行复制的载体(见图5—14)。因为凡是有内含子和外显子的基因在转录后都要经过
RNA剪接,这就需要有
剪接供体(splicing donor,SD)位点和
剪接受体(splicing acceptor,SA)位点。因此,SA位点可作为基因的标志。pETV-咀载体的克隆位点上游有一个“外显子捕捉序列”(exon trap cassette),可用来识别载体的插入片段中有无SA位点。它含有β-珠蛋白(HBG)基因的第1个外显子及其有功能的SD位点,该基因的间隔序列(ⅣS)和α,β-
半乳糖苷酶(αβ-GAL)基因。
操作步骤
操作步骤及其基本原理是:
⑴基因组DNA经“
霰弹法”切成小片段后,克隆在位于“外显子捕捉序列”下游的
克隆位点上。
⑵将这些重组载体汇总后感染
反转录病毒的专宿包装
细胞系(ecotropic retroviral packaging cell line)——ψ2细胞系。ψ2细胞提供蛋白质产物使载体(自身不能合成
病毒蛋白质)成为反转录病毒在细胞里增殖。当反转录病毒在细胞内转录时,如果
插入片段中包含有功能的SA位点,则有可能发生
RNA剪接反应而将ⅣS切除。
⑶已剪接和未剪接的病毒RNA都包装在病毒子(virion)中,从
细胞培养液中收集后用来感染兼宿反转录病毒包装细胞系(amphotropic retroviral packaging cell line)PA-317。这使反转录病毒再进行一轮复制,并产生能感染猴肾细胞系COS细胞的高效价病毒原种。这样做是由于上一轮克隆在病毒中的插入片段的剪接效率极低,而在第二轮复制时则大大提高了RNA剪接的机会。
⑷从第二个细胞系PA-317细胞中分离得到的病毒,用来感染组成型产生
SV40T(
肿瘤)抗原的COS细胞。病毒
RNA基因组被
反转录,并在载体上的SV40
复制起点作用下,以
环状DNA附加体形式进行复制。
⑸从COS细胞中回收复制的附加体DNA,经
限制性内切酶DpnI
酶切后转化细菌。在含
卡那霉素(Kn)和5-氯-4-溴-3-
吲哚-β-D-半乳糖苷(X-gal)的
培养基上挑选
转化子。β-
半乳糖苷酶可水解X-gal而生成蓝色产物。因此,不产生β-半乳糖苷酶的转化子
菌落则呈白色。
⑹只挑选出白色菌落作进一步研究的材料。白色菌落的生成可以有二种原因。一是由于基因发生突变,使β-半乳糖苷酶失去活性;二是由于在反转录病毒
生活周期的RNA时期中发生了剪接反应,从而丢失了α,β-半乳糖苷酶基因。
⑺如果是基因突变,则大多数将是缺失了载体中的“
外显子捕捉”部分,就可用人的β-
珠蛋白基因片段为探针作
菌落杂交,很快可得到验证。
⑻如果是真正发生了RNA剪接事件,准确的剪接反应可切除作为标记的ⅣS,使人β-珠蛋白基因的第1外显子与落入了捕捉陷阱的插入片段中的外显子序列连接,这可直接测定其序列加以证明。从捕捉到的外显子出发,就可进一步用作探针去从
基因组基因文库或
cDNA文库中分离出基因。
应用机理
应用聚合酶链反应-单链构象多态性(polymerase chain reaction-single strand conformation polymorphsim,PCR-SSCP)及DNA直接测序技术检测68例SAD患者和65名正常老年人的早老素-1基因第5外显子。
结果应用
结果发现68例SAD患者中有4例患者的
SSCP发生泳动异常,
DNA序列分析发现:这4例SAD患者的130号
密码子发了CTG→ATG错义突变(388位点发生C→A突变),使
氨基酸由
亮氨酸变为
蛋氨酸(Leu130Met);157号密码子发生了GTG→CTG错义突变(469位点发生G→C突变),使氨基酸由
缬氨酸变为亮氨酸(Val157Leu);有11例患者的SSCP表现为一条单链
电泳迁移率明显增快,DNA序列分析发现:这11例SAD患者的130号密码子发生了CTG→ATG错义突变(388位点发生C→A突变),使氨基酸由亮氨酸变为蛋氨酸(Leu130Met);154号密码子发生了TGC→TGT同义突变(462位点发生C→T)突变。结论,发现在SAD患者中存在
早老素-1基因第5外显子突变,该
突变点可能为中国人SAD患者早老素基因突变点之一。
多数早发性家族性阿尔茨海默氏病(familial alzheimer’s disease,FAD)与
14号染色体上的早老素-1(presenilin-1,
PS-1)基因突变有关,少数早发性FAD与PS-2基因突变有关。早老素基因与散发性Alzheimer病(sporadic alzheimer’s disease,SAD)的关系,目前国内外研究较少,为探讨PS-1基因突变在SAD发病机理中的作用,我们用
聚合酶链反应-
单链构象多态性(polymerase chain reaction-single strand conformation polymorphism,
PCR-SSCP)、DNA直接
测序技术检测了68例SAD患者及65名正常老年人PS-1基因第5外显子,发现在SAD患者中也存在PS-1基因第5外显子突。
跳跃突变
超过一半的
基因编码区的单核苷酸突变引起的疾病都是影响了RNA的剪切。例如这些突变导致基因的外显子缺失,被称为外显子
跳跃现象。如果能将外显子重新恢复到
基因转录本中去将会给许多疾病的治疗带来曙光。Adrian Krainer和Luca Cartegni开发了一种新的方法ESSENCE(exon-specific silencing enhancement by small chimeric effectors),模仿基本剪切因子SR(serine/arginine)蛋白的功能纠正这些遗传的突变。SR
蛋白结合于外显子剪切
增强因子(ESE-exonic splicing enhancers),将剪切所需要的
功能蛋白通过自身的
结构域(几个
精氨酸和
丝氨酸组成的
二肽)招募到
转录本上来
Adrian Krainer和Luca Cartegni为了在外显子跳跃突变中
恢复正常的外显子,将一个合成的RS(精氨酸-丝氨酸)结构域融合到能够与
特异性外显子结合的
反义核苷酸片段上。他们首先检测了ESSENCE方法对
乳腺癌基因1(BRCA1)突变的作用,BRCA1在外显子18上的ESE突变会导致外显子跳跃。他们发现将ESSENCE化合物与能够与外显子18反义结合的片段融合作用后在体外能够恢复正常的剪切,其中反义片段和RS片段都是必需的。
研究者接着对另一种外显子跳跃突变导致的疾病模型进行研究。
神经退行性疾病脊髓
肌肉萎缩由
运动神经元存活基因1(SMN1)的功能性拷贝缺失导致。SMN1的缺失可以有SMN2的功能所补偿,但SMN2的外显子7的单核苷酸突变会导致整个外显子缺失。研究者发现用ESSENCE方法也能在体外恢复SMN2突变缺失的外显子7。这个新方法虽然还需要体内的许多研究数据,但显然对相关
遗传疾病的治疗确实带来的曙光。
基因识别
许多基因中遗传上的“无义”片段——即
内含子,会妨碍基因指导蛋白质的合成。现在,一篇发表于3月11日期的《自然遗传学》杂志上的文章提出了
基因识别这些内含子的新机制。
细胞产生一种蛋白质时,首先需要将编码蛋白质的基因转化成RNA分子,接下来,通过细胞的剪接机制除去有潜在破坏作用的内含子,再把基因序列中剩下的所谓外显子接合到一起。许多
遗传缺陷都是由于剪接过程出错引起的。当内含子边缘
碱基发生突变,
剪接酶无法识别时,剪接过程通常就要出错。但现在,由Francisco Baralle领导的
意大利国际遗传工程和生物技术中心的研究人员发现,内含子中间碱基的突变也能够改变剪接机制处理内含子的方式。研究小组分析了神经
退行性变疾病——共济失调毛细血管扩张(ataxia-telangiectasia,A-T)病人的DNA序列。他们发现,
致病基因中内含子20内部的4个
碱基对丢失了。但病人
免疫系统细胞中的信使RNA链却比
正常细胞中的长,研究人员证明这是由于RNA链中含有多余的内含子引起的。换句话说,内含子中4个碱基对的缺失产生令人惊异的效果——缺失的碱基对转移到外显子中去了:即当“剪接机器”启动开始工作时,内含子已经离开“剪接室”,溜之大吉了。
试验项目
为进一步验证实验结果,Baralle的研究小组将含有A-T病人中缺失的这个碱基对,共由12碱基对组成的健康基因序列插入到一个完全不同基因的外显子中。令人惊异的是,剪接机制开始把整个外显子当作内含子处理,将该外显子剪切掉。Baralle得出结论:实验结果表明,这个序列行使作用时,能够帮助剪接酶识别内含子;缺失时(如在A-T病人中),就会错移到外显子中去。Baralle猜测,这个序列可能也控制着其它基因的剪接,对引起包括
癌症在内的各种疾病有一定作用。
这项工作标志着一次“重大发现”,纽约城
哥伦比亚大学的Jim Manley评价道。Manley认为内含子中间的这段关键序列也许是帮助剪接机制识别和除去内含子的“踏脚石”。在整个基因组中,可能存在“几十个类似机制”来确定内含子的组成