瞎子钟表匠与基因组的起源问题
从以上对各种基因组的介绍和分析可以看出:虽然核(类核)基因组、线粒体基因组和叶绿体基因组三者的大小和功能差异很大,而且还处于不同的细胞部位或细胞器官之中,但这三种基因组都存在着“小基因组”型和“大基因组”型。更有意思的是,三种基因组的“小基因组”型的结构特征十分相似,三种基因组的“大基因组”型的结构特征也很相似。这说明三种基因组都有一些共同的进化过程,或更确切地说,都有相应于“小基因组”型和相应于“大基因组”型的两种进化途径。从进化的观点看,所有基因组都起源于一种原始的基因组。因此,这三种基因组如何从它们共同的原始祖先进化成各自的现代形式除了与上述的两种进化途径有关外,还在很大程度上取决于原始基因组的构成,而这就涉及到基因组的起源问题。
基因组的起源,即基因组如何由原始的生物大分子形成的问题与瞎子钟表匠装配钟表有一定的相似之处。设想一个瞎子钟表匠要设计和装配出一个精密的钟表来,在只有零配件供应而没有任何其他人帮助的情况下,他如何才能达到这一目的呢?
比较可行的途径是,他设计的钟表的结构必须是分成几个结构等级的, 首先由零配件构成一些较稳固的第一级的结构,然后由一定数量的第一级的结构组合成较稳固的第二级的结构,第二级的结构再组合成较稳固的第三级的结构,如此下去,直至构成一个完整的精密钟表。
这样,在开始“摸索着”装配钟表的时候,瞎子钟表匠可以想办法先装配出钟表的各种第一级的结构。在这一过程中,如果发生差错的话,则要重新从零配件开始,但一旦装配成功,就产生了一种不易被拆散的组合结构。当装配出所有的一级结构后,进一步的装配就以一级的结构为基础来装配二级的结构。在这一过程中,如果出了差错,装配中的钟表并不会散成零配件, 而只会散成一级的结构。从而,瞎子钟表匠并不需要从头开始,而只要继续把一级的结构装配成二级的结构。装配出二级的结构后,它们就不再容易散成一级的结构,更不易散成零配件。以这种方式继续下去,瞎子钟表匠很有可能再装配出三级的结构、四级的结构⋯⋯最后装配出精密复杂的钟表。但是,如果所设计的钟表在结构上是零散的、不成等级的,那么在装配的过程中一出现差错,装配中的钟表就会散成零配件。这样的话,瞎子钟表匠只能一次又一次地从零配件开始装配钟表,从而有可能一辈子都装配不出一个精密的钟表机械来。
这种情况又好比一个人要从地面登上很高的地方。如果是通过梯级式的路径来攀登,则可以在任何一个台阶上停下来歇息,即使发生失足,也不易跌回地面。通过这样的路径是比较容易登上终点的。但如果是通过一个很陡的斜面来攀登,则时时处处都要小心谨慎,稍有失足就要滑回地面。这样登上终点的可能性是不大的。
基因组起源的情况也是这样。自然界好比是一个瞎子钟表匠,只能“摸索着”进行基因组的装配。如果基因组结构的各部分是零散的,则只要在装配的过程中一发生差错,就得从头开始。这样的基因组是很难在自然界中形成的。因此,自然界必须采取“步步为营”的策略,一步一级,才能从原始的生物大分子装配和进化出结构复杂而精密的基因组。
那么,最原始或最初级的基因组又是怎么样的呢?
设想自然界通过化学进化形成了一种或几种能自我复制的原始生物大分子。根据目前的研究,这些原始生物大分子很可能是 RNA,且有一定的大小, 太小了不可能有自我复制的功能,太大了则不可能通过化学进化形成,因此它们的大小可能有 100 个核苷酸左右。有关的研究表明,如果在开始的时候只有一种自复制的原始生物大分子,那么通过复制作用,便会产生数量众多的同种生物大分子;如果一开始就有两种或两种以上同类的(只是序列不同的)可自复制的原始生物大分子,则由于不同种的大分子各自的复制不可避免地要产生空间和资源(小分子构件)上的竞争,从而存在着一种所谓的竞争排斥作用,结果只能有一种“幸运的”原始生物大分子可以成功地扩增其数量,其他不同种的都会逐渐地被排斥掉。由于同样的原因,当一种原始生物大分子复制出大量的拷贝以后,就很难再有其他同类不同种的可自复制的大分子出现。因此,最初的生命世界很有可能只是由种类单一的可自复制的原始生物大分子组成,这些原始生物大分子在起源的意义上就是最原始的“基因”。
当这些原始生物大分子复制到具有一定的数量后,又如何进一步发展呢?是各自独立地发展?还是组织在一起呢?如果是独立地发展,那将不可避免地要面临两大难题:第一,当一个发展中的原始生物大分子与原来的大分子之间的差异变得足够大以后,就会产生大分子种间的竞争排斥作用,结果可能导致其被排斥;第二,一个单独的原始生物大分子很难在保持其自复制能力的情况下产生合适的变异以获得更高级的功能,因为变异往往会使它的自复制能力丧失,这样原始生物大分子的进化又得从头开始。因此,原始生物大分子必须组织起来,形成一种过渡性的初级结构,才有可能进一步发展。这种过渡性的初级结构就是同种的原始生物大分子之间通过化学连结而组成的重复序列。
通过形成重复序列,不但可以使生物大分子成十倍百倍地增加其大小并有可能形成更稳定的结构,而且更重要的是获得了比单独存在的原始生物大分子大得多的进化潜力和进化可能性。这种进化潜力和可能性包括在保持整体的自复制能力的情况下形成一些具较高级功能的基因,以及降低能自复制的生物大分子之间的竞争程度以形成较高的生物多样性。重复序列可以通过只改变其中的一部分重复结构单元而达到这样的目的。好比一排横列的人组成的队伍,只要其中大部分的人能够走动,整个队伍就可以通过手挽手前进那样,重复序列中只要大部分或相当一部分的结构单元仍保持自复制的能力,整个重复序列就可以继续自复制。因此,重复序列中的少数结构单元就可以比较随意地变化,直至获得一种新的功能。而只有少数结构单元变化的重复序列与原来的重复序列的差异并不大,仍然相当于同一种生物大分子, 因此基本上不存在不同种大分子之间的竞争排斥作用。在这种意义上,可以认为最原始的“基因组”就是由可自复制的原始生物大分子组成的重复序列, 而且这种结构是基因组进化的必由之路。
如果最原始的“基因组”是由一段段重复的结构单元构成,那么在这样的一个基础上,一方面可以通过进化在以后的基因组中产生种类繁多的重复序列,另外更重要的是可以直接形成断裂基因的雏形。断裂基因是由重复序列构成的最原始的基因组最有可能的进化产物。
在早期的基因组进化过程中,由于还没有由酶催化的复制,从而原来最原始的基因组中可自复制的重复结构单元对后来的基因组的自复制和组织都
是必不可少的,而且这些结构单元必须以相间排列的方式存在才能保证整个基因组的自复制。另外,成功的变异也是有限的。因此,直接从最原始的基因组进化而来的基因组只能有一部分结构单元的序列发生比较大的变化并获得了新的功能,而另外大部分相间其中的结构单元则基本上没有什么变化。变化得比较大且具有新功能的那些结构单元就成为了原始的外显子,每个外显子可以有一个至数个结构单元的大小,而相隔在其中的那些变化较小的且对基因组的复制是必不可少的结构单元就成为了原始的内含子,这样便形成了断裂基因的雏形。至于基因组中连续很多个结构单元都没有发生什么变化的区域便有可能成为原始断裂基因之间的间隔,它们也是原始基因组的复制所必需的。此后,随着生物系统的不断完善,基因中的外显子不断特化,内含子的序列和长度也可以不断分化,从而进化成为现代断裂基因的形式(图23)。而且,也使得重复序列和内含子不再是基因组中必不可少的成分。
因此,根据这种观点,原始的基因组是由重复序列和原始的断裂基因构成的,重复序列在最原始的基因组中就存在,而紧接着就是断裂基因(内含子)的出现。
现在已经有越来越多的事实支持上述的观点,图 23 断裂基因“内含子”的起源和进化其中比较重要的是:
-
多聚体生物大分子的自发形成是一个非随机的过程,从而其序列的种类是有限的。再加上竞争排斥作用,就使得生命起源时期和生物进化初期能自我复制的原始生物大分子的序列种类十分单一。这样,重复序列就可以通过原始生物大分子之间的化学连结而产生。
-
在一些研究得比较详细的现代基因组中,发现很多所谓的“单拷贝” 序列其实是分化了的重复序列或“化石重复序列”,从而重复序列对现代基因组的构成所起的作用比原来认为的还要大。
-
对现代 DNA 序列的分析表明,基因中存在着一些寡聚核苷酸的重复序列,它们有可能是地球上的原始编码序列。另外,从对大量的核苷酸序列的统计学分析发现,现代核苷酸序列中存在着一种远距的自相似或相关现象。这一现象可以很好地解释为原始基因组中的重复序列在现代基因组中的进化遗迹。
-
在断裂基因中,内含子与外显子的连接序列具特异的重复模式。通过初步的分析,结论是这一特异的重复模式说明了原始外显子与内含子的序列至少在它们相应的边界区域是相同的,其起源与重复序列有关,也是原始重复序列的一种遗迹。从而可以认为,断裂基因(内含子)是在生物进化的早期直接由原始重复序列进化产生的。
-
有分子证据显示,内含子在原核生物与真核生物分化之前就存在了。而且,现代基因组中还有一些内含子具有自剪接及催化的特性,说明它们是一种原始的结构。
-
作为原始基因组含有重复序列和内含子的重要非直接证据,在原核生物基因组、线粒体基因组和叶绿体基因组中都发现有重复序列和内含子的存在。
既然一系列事实表明生物基因组起源于重复序列,并在这样的一个基础上进化产生具有原始的内含子和外显子(原始的断裂基因)以及重复序列的原始基因组,那么,这种原始的基因组又如何进化成为现代的各种基因组呢?