基因测序20年后,终于搞清了垃圾DNA是干啥的

基因测序20年后,终于搞清了垃圾DNA是干啥的
2023年07月01日 09:17 返朴

1990年,国际人类基因组计划启动,到2003年,绝大多数人类基因组已获得测定。人们惊奇地发现,人类的基因并非一条完整的信息链,而是被许多不能编码遗传信息的序列切割得支离破碎。这些不能编码遗传信息的DNA在当时被称为“垃圾”。大自然为什么要在人类基因里放置那么多的垃圾?二十年来,随着科学家的努力,真相逐渐浮出水面:这些垃圾DNA自有作用,而其中非常重要的一类就叫做“内含子”。

撰文 | 玉宝(中科院遗传发育所博士)

内含子的发现

龙生龙,凤生凤,遗传是我们生活中随处可见的现象。科学家很早就猜测,一定是有什么物质能把上一代的性状传递给下一代。十九世纪中叶,奥地利科学家孟德尔(Gregor Johann Mendel)根据他多年的植物杂交实验结果假想出“遗传因子”这样一个独立的遗传单位,并认为生物的所有性状都是通过遗传因子来传递的。1903年,美国生物学家沃尔特·萨顿(Walter Sutton)和德国生物学家鲍维里(Theodor Heinrich Boveri)提出遗传因子位于染色体上,染色体是遗传物质的载体。1909年,丹麦遗传学家约翰逊(Wilhelm Johannsen)提出了“Gene”(基因)的概念,以此来替代孟德尔假定的“遗传因子”。从此,“基因”一词一直在遗传学中沿用至今。

约翰逊认为,“基因”背后应该有一个化学实体。人们相信只要弄清了基因的结构,基因如何编码遗传信息、遗传信息如何传代就很容易解释了。在二十世纪五十年代以前,基因的结构并不清晰,直到1953年美国分子生物学家沃森(James Watson)和英国生物学家克里克(Francis Crick)发现DNA的双螺旋结构,这个问题才得以解决。但科学家对基因的编码方式提出了多种理论,例如“一个基因一个酶(蛋白)”就是流行于四十年代的理论。后来人们发现,这个理论遇到的例外越来越多:不少基因发挥功能的实体是RNA,或者数个基因编码一个蛋白,或者一个基因编码数个蛋白。因此,“基因”的定义变得越来越复杂。

1977年,美国科学家夏普(Philip Sharp)与英国科学家理查德·罗伯茨(Richard Roberts)在研究腺病毒遗传时,各自用电镜技术独立发现了内含子[1, 2],并提出了“断裂基因理论”,两人因此荣获1993年的诺贝尔生理学或医学奖。电镜技术对于内含子的发现功不可没,它的分辨率能够看到纳米尺度的DNA或RNA分子。不过,内含子的命名另有其人。在1978年的一篇短文中,美国科学家沃特·吉尔伯特(Walter Gilbert)提议用“intron(内含子)”指代mRNA前体中的非编码序列。mRNA是基因由DNA序列“翻译”成蛋白质序列的模板。

1980年,吉尔伯特与弗雷德里克·桑格(Frederick Sanger)、保罗·伯格(Paul Berg)因发明基因测序技术而共同获得诺贝尔化学奖。

断裂基因理论认为,真核生物的基因组中,基因的序列是不连续的,在基因的编码区域之间含有大量的不编码序列,从而打断了对应的蛋白质的氨基酸序列。内含子,一般指的是真核生物基因中不编码蛋白质,是在mRNA加工过程中被剪切掉的DNA序列。这个剪切反应由“剪接体(spliceosome)”完成;剪接体的结构十分复杂,由100多个“零件”组成。

图1 转录过程中内含子被剪切的示意图。在真核细胞基因转录过程中,“剪接体”行使功能将内含子去除,将外显子(绿色)组合到一起,形成成熟的mRNA。图源:李宏彬等

内含子的功能

真核细胞蛋白质编码基因与原核细胞的最大区别,就在于前者中存在内含子而后者没有。通常,内含子的长度远比编码蛋白的外显子序列长。内含子的存在,使得真核细胞在传代和基因表达时消耗了大量的物质和能量,这无疑会增加机体的生存负担。那么,这么长的非编码片段嵌在基因里,到底有什么用呢?

内含子发现之后的20年里,人们对它的起源和功能方面的研究较少。实际上,直到21世纪初,人类基因组草图刚完成那几年,还有一个流行的说法:“人类基因组中95%的序列都是垃圾DNA”。相信有读者记得当时的这个说法。当然,那时候人们所说的垃圾序列中,就包括了内含子。在科研人员的不断努力下,“垃圾DNA”的说法逐渐被推翻,内含子的重要功能也逐步清晰起来。

一系列研究发现,内含子有助于维持基因的稳定,还会参与基因的表达和调控。具体来说,基因中的内含子与外显子通过可变剪接产生不同的外显子组合,进而翻译出多种蛋白质,提高了蛋白质组的复杂性;内含子中的增强子(序列)等调控元件可以调控基因的转录效率;内含子中的一些RNA元件还可以避免转录提前终止。

早期研究发现,内含子可以维持基因转录时DNA序列的稳定:防止基因在转录时形成“R环”(R-loop)。所谓R环,顾名思义就是“R”形的结构,它是指由转录出的RNA链与打开的双链DNA的其中一条发生碱基互补配对,形成RNA-DNA杂合链的结构,同时,未配对的另一条DNA链处于游离状态(见图2)。而内含子的存在可以减少R环形成,保持基因组DNA的稳定性。不过,R环也并不都是“坏的”,后来人们发现细胞中的R环也是有生物功能的——它可以调节基因表达,如转录起始和延伸、表观遗传调控等。另外,R环的失调与DNA损伤、基因组不稳定、基因高频重组也有关。

图2. 基因转录时形成“R环”(R-loop)的两种方式。图源:张译匀等

内含子还有许多其他的功能。几年前,加拿大舍布鲁克大学的Elela团队和美国麻省理工学院的Bartel团队同时发表了两篇论文[4, 5],表明内含子可以协助机体应对营养缺乏的压力,使其“扛饿”。

Elela团队逐个敲除了酿酒酵母的200多个内含子,看看是否会影响酵母的生存能力。通过测序以及相应的表型分析,研究人员发现内含子具有调控酵母适应营养匮乏(饥饿)的功能。Bartel团队则发现酵母中有34个内含子一直存在于细胞中,以剪切后的全长或线性形式存在,它们受到经典的TOR代谢通路的调控,在营养匮乏时能够减缓酵母的生长速度,提高了酵母的适应性和生存率。这些内含子发挥应对逆境的功能,与其所在基因的功能无关。内含子关乎机体的生死存亡,那么在它生物演化过程中得以保留也就可以理解了。

内含子可以分为四类:Ⅰ型内含子、Ⅱ型内含子、剪接体内含子、tRNA内含子。其中,一般意义上的内含子就是剪接体内含子,顾名思义就是自带剪接体的内含子,其”剪接体”的蛋白立体结构已被解析出来。生成mRNA的剪接反应非常精准,错误率极低——要知道,若移码错位一个碱基,就会导致后续转录过程发生异常,无法生成蛋白质或生成错误的蛋白质。

Ⅰ型内含子存在于细菌、噬菌体、原生生物、真菌中,能够自我剪接。Ⅱ型内含子存在于细菌和细胞器基因组中,同样能够自我剪接,但是机制与1型内含子不同,与剪接体内含子的剪接机制类似。tRNA内含子存在于真核细胞和古菌中,剪接过程需要内切酶和ATP。

内含子的产生机制

真核细胞里到底是怎么出现内含子的?

关于内含子的产生机制,目前比较流行的解释是“introner理论”[6],它可以解释剪接体内含子的起源。introners可以看做是基因组中的“寄生虫”,在基因组中通过“复制”“粘贴”的方式“制造”了大量内含子。2009年,科学家在微单胞藻中发现了introner,随后在鞭毛藻、某些真菌、尾索动物中也发现了它的踪迹。

科学家的多项研究表明,这个“复制”“粘贴”的过程可以在整个基因组中大规模地重复:在整个生物演化过程中,introner在不同的真核生物中不停制造着内含子。比如,在过去的十万年中,真菌基因组中的多数内含子都是Introner引入的[7]

图3. Introner如何“制造”内含子? Introner把内含子序列插入基因组中,从而“割裂”原有的DNA序列,生成新的外显子。图源:Merrill Sherman

研究发现,在一些物种中,introner产生的序列与DNA转座子有很强的相似性,例如Polarella glacialisMicromonas这两种藻类就是这样。DNA转座子代表了一个更大的遗传元件家族,又称转座元件或“跳跃基因”;转座子可以将自身序列大量拷贝并插入基因组中。introner和转座子的这种的相似性,提示了一部分内含子可能来源于转座子。Introner机制产生的内含子往往在短期内大量出现在基因组中,带有很强的随机性,这可以解释为什么内含子在真核生物基因组中的分布并不均匀。

不过,目前introner只发现于部分物种。例如,内含子的涌现似乎在水生生物中更常见:内含子出现在水生生物基因组中的可能性是陆生生物基因组的6倍多。此外,近3/4的含有内含子的水生物种,其基因组拥有多个序列相似的内含子。这种序列相似的现象其实就是基因水平转移,即基因序列从一个物种转移到另一个物种。这种形式的基因转移,往往发生在水生环境或物种共生的情况下,例如宿主和寄生虫之间。

水生环境有助于水平基因转移,是因为在水性介质中各种遗传物质可以自由流动。单细胞生物在水中很容易吸收或融合外源DNA;更复杂的多细胞生物在水中产卵或受精,也有机会接触到外源DNA或RNA。有研究发现,在将近300多个硬骨鱼类基因组中曾发生了近1000个基因水平转移或内含子插入事件[8]。相比之下,陆地生物之间发生基因水平转移的频率要低得多。

内含子对生物演化的意义

同样是真核生物,哺乳动物的内含子比酵母的更多更长。例如,人类内含子序列长度约占基因组的25%,每个基因平均约有9个内含子,这样有助于基因实现复杂多样的功能。人类mRNA前体中内含子的长度差异非常大,可以从50个碱基到百万个碱基不等。

内含子在物种间及物种内部的分布也不均衡。同一物种不同个体的同一基因中,有的有内含子,有的没有;不同物种同一基因的内含子的长度、数目和所处位置等都不相同。如Sccoxl.2b和Ancoxl.3这两个同源基因的内含子,其序列有70%相同,但内含子旁边的外显子排列顺序差异很大,这可能是内含子在不同物种中发生了转移的结果。

内含子的存在需要有相应的机制保证。真核生物因为细胞中有核膜,为基因转录和翻译过程在空间上的分离提供了基础,同时细胞中的大量线粒体可以提供能量,所以内含子的存在有其物质基础。而原核生物,没有核膜结构,转录和翻译是同步的,所以原核生物无需内含子来保持DNA序列的稳定性。

科学家认为,内含子有助于推动基因家族或物种的演化。基因组通过组合外显子和内含子,通过可变剪接的机制制造新的变异,生成新的调控模式或功能模块(酶、蛋白质、通路等)。例如,可以产生毒素的物种通常需要在基因层面快速组合,进而生成新的毒液(复杂的肽类混合物),以适应不同的猎物或应对天敌。动物的免疫系统则需要快速重排MHC基因,不断产生新的抗体或抗原呈递细胞,以应对生活环境中多变的抗原。这种快速进化机制在自然界中很普遍,内含子往往会参与到这些机制当中。

参考文献

[1] Berget SM et al. Spliced segments at the 5' terminus of adenovirus 2 late mRNA. PNAS. 1977, 74 (8): 3171–3175.

[2] Chow LT, et al. "An amazing sequence arrangement at the 5' ends of adenovirus 2 messenger RNA". Cell. 1977, 12 (1): 1–8.

[3] Gilbert W. Why genes in pieces. Nature. 1978, 271 (5645): 501.

[4] Elela AS et al. Introns are mediators of cell response to starvation. Nature. 2019, 565(7741): 612-617.

[5] Bartel DP. Excised linear introns regulate growth in yeast. Nature 2019, 565(7741): 606-611

[6] A.Z. Worden, et al. Green evolution and dynamic adaptations revealed by genomes of the marine picoeukaryotes Micromonas. Science, 2009, 324 (5924), 268-272

[7] Ate van der Burgt et al. Birth of New Spliceosomal Introns in Fungi by Multiplication of Introner-like Elements. Current Biology, 2012: 22(13), 1260-1265

[8] Zhang HH et al.Horizontal transfer and evolution of transposable elements in vertebrates. Nat Commun. 2020, 11(1):1362.

本文受科普中国·星空计划项目扶持

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部