脱氧核糖核酸:生命的阶梯

人的每个细胞(不含成熟的红血球细胞)共有 20 万个基因(10 万对基因),把用这些基因所含的信息写满的教科书堆起来比 19 层楼还高。研究基因的生物学家荣获的诺贝尔奖金数量超过从事其他科研工作的科学家。研究生物最终要研究它们的基因。然而,基因究竟是什么?

格雷戈尔·孟德尔(1822—1884,奥地利遗传学家、孟德尔学派创始人。1865 年发现遗传基因原理,总结出分离定律和独立分配定律,提供遗传学的数学基础——译注)是 19 世纪中叶的奥地利天主教神父。在他看来,基因是亲代传给后代的很小的颗粒状遗传“因子”。在一个天主教堂的园子里,孟德尔在经过多轮栽培,培育出因遗传基因不同而具有 7 种不同特征的豌豆(例如植株高度、豌豆颜色和纹理等)。在将不同品种的豌豆杂交 8 年之后,孟德尔看到某些遗传方式,即著名的孟德尔定律;而这些分离的遗传因子的存在可以充分解释这一定律。他确信,一对因子支配着各个特征的显现。这些因子可以相同,但不一定。例如,豌豆颜色的因子,有一种黄色与一种绿色的变体。一种作物可以有两种黄色因子,或一种黄色因子和一种绿色因子,或两种绿色因子。就拥有一种黄色因子和一种绿色因子来说,黄色是显性性状,而且黄色特性的显现多于绿色特性。在多数不同的等位基因中,一种因子的显性多于另一种因子。

各亲代向其后代提供一种特性的一种因子。各亲代提供这两种因子中的哪一种因子(植物或精液通过花粉或卵细胞,动物通过卵细胞提供)决定着后代的遗传性。

孟德尔最初想用小鼠等实验室用的小型哺乳动物(而不是植物)来作试验,然而,天主教会认为不能搞动物的人工交配试验。对格雷戈尔·孟德尔来说,他们做了一件好事,因为小鼠的皮毛颜色并非由一对基因控制。多数特性都不是受基因控制。总共 63 个基因对互相配合,决定了小鼠皮毛的颜色。

尽管孟德尔很走运,他所作的一系列试验以及从试验中得出的结论很出色。他确实是走在他的那个时代前面的科学家,但也正因为这样,他的工作难免存在一些缺陷。缺陷之一是根本没有看到遗传因子的物质性。有哪些遗传因子呢?在细胞中何处有遗传因子呢?格雷戈尔·孟德尔一无所知。他怎么能知道遗传因子是在染色体中呢?要知道,发现染色体这类结构还需要花 20 年时间。

染色体是绝对存在于细胞胞核内的杆状体(实际上,染色体只是在细胞分裂时呈杆状,而在其他时刻无法看到)。人体的每个细胞都有 23 对染色体。只有无胞核的成熟的红血球才没有染色体。为了了解怎样揭示染色体在遗传学中的主要作用,我们必须将注意力从花园里的豌豆作物转到果蝇上来。果蝇(黑柄后腹果蝇)是一种爱吃香蕉的无害小生物。

正是这种讨厌的小生物引起了哥伦比亚大学的托马斯·亨特·摩根

(1866—1945,美国胚胎学家、遗传学家,因建立遗传的染色体学说获 1933 年诺贝尔医学奖——译注)及其同事们的兴趣。他们开始用酸、碱、镭和X 射线激发与刺激果蝇,其目的是产生一些新的特点,叫突变。如果通过很多代繁殖可以实现这些突变的遗传(一代需要 10 天时间),摩根就可以肯定或推翻孟德尔的看法;而摩根从一开始就不相信孟德尔的看法。

摩根搞了很多年都未能发现突变,真是不走运。最终,在 1910 年 5月的一天,他看到了他培育的一种果蝇,都长有红眼睛,然而他吃惊地看到有一只长着白眼睛的果蝇直盯着他。这是预示着美好未来的良好开端。在 1910 年至 1915 年期间,摩根跟踪研究无数代果蝇的数十种特性(眼

睛的颜色、蝇翅的形状与大小、蝇体的颜色等)。他注意到,诸如眼睛的颜色和体色等两种不同的特性几乎总是互不相关地独立遗传的,但是,有时则不然。例如,如果将一种白眼睛、小翅膀的雄性果蝇与一种红眼睛、普通翅膀的雌性果蝇杂交,后代往往兼有亲代的 2 种特性。为什么会这样呢?

我们来谈谈染色体。染色体不可思议地存在于细胞核中。有一段时间, 人们认为细胞核具有生物伴的遗传性,因为精子细胞尽管比卵细胞小得多,但这两者具有相等数量的核材料。而对摩根及其同事来说,新发现的染色体似乎完全可以在孟德尔所说的因子(基因)的核心部位。不仅染色体与特性基因一样成对出现,而且基因在染色体上的部位都可以合乎逻辑地扼要说明某些特点相互间的连锁。为了了解其原因,我们先看一下基础生物学有关情况。

人的每个细胞都有 23 对染色体。果蝇的每个细胞有 4 对染色体,所谓每个细胞指不含精子与卵子(它们称作配子)。在睾丸与卵巢中的特定细胞产生精子与卵子时,染色体的数量减半。其原因在于每对染色体仅向每个精子与卵子提供一个染色体。最重要的一条是:染色体的选择完全是随机的。一个配子只能与每对染色体的一个染色体交配。

染色体的这种独立交配对于位于染色体的基因具有某些后果。不同染色体上的基因都随机交配,因而它们的特性反映遗传的随机性。

然而,如果 2 个~3 个,乃至十来个基因都在同一染色体上,这些基因会作为 1 个单元传到获得该染色体的任何精子或卵子中,而且它们所确

定的特性将显示遗传的连锁样式。图 1 为基因的这种独立交配与连锁过程示意图。

a 基因(白眼睛)与 A 基因(红眼睛)在 c 基因(体多毛)与 C 基因

(体无毛)的不同染色体对上;它们之间不连锁。在将染色体分送到精子细胞与卵子细胞内时,基因的所有组合(ac、AC、aC、Ac)可能都一样。因此,白眼睛果蝇与红眼睛果蝇都同样有可能蝇体多毛或无毛。

a 基因(白眼睛)和 b 基因(小翅膀)在同一染色体上,它们之间连锁。这一点对 A 基因(红眼睛)和 B 基因(普通翅膀)也适用。在将染色体分送到精子与卵子内时,将连锁的基因一起传送。因此,正像红眼睛与普通翅膀那样,将白眼睛与小翅膀一起遗传下来。

然而,一个基因不会忠实地归于它的染色体配偶。在所谓的同源染色体间遗传物质交换的现象中,两个一对的染色体往往与对应的染色体交换,再前往各自的精子或卵子。如图 2 所示,这种交换有可能将两个连锁的基因分开。

两个基因在某染色体上越靠近,它们被染色体交换的可能性就越小。即两个基因保持连锁的次数取决于它们在染色体上的具体紧密度。摩根认识到,可以将连锁率或连锁次数的观测结果用来将基因“置入”或确定在染色体的特定序列之中。到 1915 年,他所编制的果蝇的 4 个染色体的连锁图已十分详细(每对染色体只需要画出一个染色体)。自从摩根作出这类

开创性工作以来,事实证明,同源染色体间遗传物质的交换已成为遗传学家设法确认与确定基因的极为有价值的手段。

因此,基因控制了动物的具体特性,而且位于染色体的特定序列中。有人将基因在染色体上的排列比作项链上的珍珠排列。尽管这种比喻并不完全确切,但便于讲清楚问题。

让我们对染色体进行仔细分析。染色体是由不同蛋白与脱氧核糖核酸组成的一种复杂结构。那么,这种化学嵌合体的哪个部分包含遗传物质呢? 20 世纪前叶科学家主要研究的是蛋白。试验已证实,蛋白是活动能力

极强的分子,它们在生物体物质中的作用令人惊奇。看来,不同蛋白分子的变化几乎无穷尽。难怪当时多数生物学家,包括诺贝尔奖金获得者莱纳斯·泡令(美国化学家,因其关于化学键本质的理论研究获 1954 年诺贝尔化学奖——译注)都认为,蛋白是构成基因的物质。但是,他们都错了。遗传物质原来是脱氧核糖核酸。这项新发现让多数遗传学家震惊。用

大科学家马克斯·德尔布鲁克的话来说:“当时,人们都认为,脱氧核糖核酸是一种笨头笨脑的物质⋯⋯什么具体事都干不了。”奥斯瓦尔德·埃弗里于 1944 年宣布了他多年的研究结果。他的研究结果清楚地证明,这些人的看法是多么错误啊。埃弗里与他的合作者麦克林·麦卡蒂与科林·麦克劳德提纯并识别细胞中的一种名叫转化要素的物质。(当科学家称某物为要素时,一般都意味着他们并不知道它是什么东西。)这种要素,在由传染的肺炎双球菌菌株向无害细菌菌株转移时,能够给无害菌株带来病毒。更重要的是,转化细菌将这种新获得的性状遗传给其后代。令人吃惊的是,转化要素即为脱氧核糖核酸。1952 年,科尔斯普林哈伯实验室的艾尔弗雷德·赫希与马莎·蔡斯进一步佐证脱氧核糖核酸是遗传物质。他们在一次富有创造力的试验中证明,某种病毒在细菌内感染且繁殖,是因为病毒的脱氧核糖核酸(而不是蛋白)进入细菌。

尽管已提出这种证据,有些科学家仍然坚持他们的看法,即蛋白是遗传物质。他们认为,在诸如埃弗里所作的试验中,脱氧核糖核酸仅仅是一种污染物质。然而,科学界的多数科学家都接受埃弗里的研究结果。接受并支持他的研究成果的两名科学家是詹姆斯·沃森和弗朗西斯·克里克。当埃弗里公布他的研究结果时,脱氧核糖核酸对科学家们来说并不是

一种新分子。18 世纪 70 年代中期,约翰·弗里德里克·米谢尔将脱氧核糖核酸从白细胞与精子细胞的细胞核中分离出来,此后人们就一直进行脱氧核糖核酸的研究,但研究缺乏计划性。可是,到了 1944 年,脱氧核糖核酸研究突然成了科学研究的热门话题,非常引人注目。世界各国的实验室开始分离脱氧核糖核酸并加以分析。1952 年,科学家已搞清楚它的基本分子结构。这种分子的基础是交变糖组与磷酸盐组。正如罗伯特·夏皮罗在他的论著《人的蓝图》谈到这些内容时所说,4 种不同的氮碱基从这一基础悬挂下来,“犹如手镯的很多小饰物似的”。

脱氧核糖核酸作为遗传物质怎样发挥机能仍有待确定。它的结构编码以什么方式在其必须控制的无数事件中起作用?这种编码怎样传给细胞的各个后代?

沃森与克里克对这些问题作出了回答。这两个人对莱纳斯·泡令采用所谓的 X 射线晶体学(用以研究 X 射线衍射图)的新方法来确定蛋白分子的螺旋性的成就留下了十分深刻的印象。沃森确信,脱氧核糖核酸也是一

种螺旋结构。在研究脱氧核糖核酸的 X 射线晶体衍射图时,他开始研究脱氧核糖核酸的各种亚单元的切断形状,将它们作为七巧板单元处理,设法使它们符合有意义的分子形状。化学分析已证明,在一个脱氧核糖核酸分子中,存在等量的腺嘌呤(即 A 碱基)和胸腺嘧啶(即 T 碱基)。其余两种碱基,即胞核嘧啶碱基(C 碱基)与鸟嘌呤(G 碱基)也等量地存在于一个脱氧核糖核酸分子中。令人难以理解的是,A 亚单元与 T 亚单元看上去像键合对似的,结合得很好,C 亚单元与 G 亚单元也是这样。

不久,莫里斯·威尔金斯(1916 出生于新西兰的英国生物物理学家, 因对脱氧核糖核酸的 X 射线衍射的研究证明其分子结构,与克里克和沃森共获 1962 年诺贝尔医学奖——译注)和罗莎琳德·富兰克林(克里克和沃森与其合作,未获得诺贝尔奖金)所提供的晶体 X 射线衍射图开始将脱氧核糖核酸描写成一种双股螺旋线。最后,到 1953 年,该难题的所有方方面面都得到了解释。链式“手镯”及其悬挂的氮基“小饰物”只代表脱氧核糖核酸分子的一半。脱氧核糖核酸确实是有两个带“饰物”的“手镯”, 这两个“手镯”排成一直线,因而它们的“小饰物”互相键合。一个“手镯”的 A“饰物”总是与另一个“手镯”的 T“饰物”键合,正如 C 碱基总是与 G 碱基键合那样。这双重链还总是明显地扭转。这幅新图谱犹如搓成的绳梯,而不是任何首饰,绳梯的竖立部分为糖-磷酸盐支柱,梯级代表碱基对。

遗传学家对绳梯的竖立部分几乎没有兴趣;这些竖立部分并不包含亲代细胞传下来的遗传信息。而阶梯则不然。这些碱基对就像字母表的字母, 一系列碱基对拼写出能确切地说明某细胞如何发挥其机能的难解的密码。基因语言只用 AT、TA、CG、GC4 个字母拼写,这一点与英语 26 个字母表不同。然而,一组 10 个碱基对(10 个字母组成的代码)在 10 个部位中的任

何一个都可能具有 4 个碱基对中的任何一个。通过简单的数学计算可知,

总共可能出现的不同的 10 种碱基对为 410,即有 100 多万种的不同组合。

人的基因组(人体细胞中的所有脱氧核糖核酸)的长度不止是 10 个碱基

对。按每个染色体对有两个染色体计算可知,共有 30 亿个碱基对,数量很

大。难怪生命体有这样大的差异。图 3 列出了具有碱基对任意顺序的一段双股脱氧核糖核酸。

现在,这个问题成为“一系列代码怎样才能为某细胞的行为编码”, 通过控制某细胞所产生的蛋白可以做到这一点。人体有数百万亿个细胞, 至少能产生 5 万种不同的蛋白。蛋白实际上是很多名叫氨基酸的较小的亚

单元组成的长链。有 20 种不同的氨基酸,它们必须以正确的顺序连在一起才能产生正确的蛋白。

60 年代,美国国家卫生研究所的马歇尔·尼伦伯格已搞清楚怎样将某基因中的碱基顺序变为适当的氨基酸顺序。自从脱氧核糖核酸双股螺旋线中的一股上的 3 个相邻的碱基(叫密码子)确定一特定的氨基酸以来,人们终于了解到,这是一种三联体密码。因此,6 个相邻的碱基,或 2 个密码子,为某蛋白分子的两个相邻的氨基酸编码。就胰岛素而言,需要一段长 153 个的碱基来支配其 51 个氨基酸的集合。多个密码子给没有氨基酸的部分编码,实际上中止了蛋白的合成。

蛋白集合的实际部位不在细胞核内,它们是很小的粒子叫核蛋白体, 它们在细胞质内到处游移。脱氧核糖核酸并不支配这种集合,因为脱氧核

糖核酸是一种很有用的分子,不可能在细胞中到处游移。它安全地留在细胞核内,结合成染色体结构。其中的信息必须接近核蛋白体,成为信使核糖核酸。这种分子的结构与脱氧核糖核酸的结构极其相似,尽管它只是单股螺旋线。多股信使核糖核酸只将其两股螺旋线中的一股(名叫编码股) 用作模板,与脱氧核糖核酸一起生成。这样生成的信使脱氧核糖核酸有一个碱基顺序与其脱氧核糖核酸模板互补。信使核糖核酸将来自脱氧核糖核酸的密码转到核糖体,并直接参与蛋白合成。

我们仍然尚未答复“基因是什么”这个问题。严格地说,基因是为特定蛋白编码的一段脱氧核糖核酸。人体的 23 对染色体上约有 10 万对基因。

1 号染色体是人体最大的染色体,拥有约 3 亿个脱氧核糖核酸碱基对,这

些碱基对约分成 1 万个基因。这个数字是人体的最小染色体,即 21 号染色

体所拥有的脱氧核糖核酸数目的 6 倍。

理想的情况是,基因应当沿脱氧核糖核酸分子排列成行,完全由密码子作为某一蛋白的结尾部分或另一蛋白的开头部分。但事实并非如此,脱氧核糖核酸的结构比上述情况复杂得多。起动阶段有脱氧核糖核酸区,叫调节基因,这种基因并不为蛋白编码,而是启用或停用真正的蛋白编码基因。弗兰索伊斯·雅各布、雅克-卢西恩·莫诺德和安德烈·卢沃夫因发现细菌中的调节基因而共获 1965 年的诺贝尔奖金。

后来,又发现了控制基因活动的其他非编码成分,并给它们起了丰富多彩的名称,例如强化基因、启动基因、抑制基因与沉寂基因。然而,1977 年有一项发现确实使基因界震惊。那一年,科学家们在鸡与兔的基因中发现了基因内区。基因内区是蛋白编码基因内的一段没有意义的脱氧核糖核酸。有些基因有很多基因内区,这些基因内区并不为任何蛋白编码,而且显然只用于中断基因的连续。由介入的基因内区中断的某基因内的各段蛋白编码脱氧核糖核酸叫外显子。

1977 年以来,在很多其他动物(包括人)体中发现基因内区。实际上, 生物体越高度进化,似乎拥有脱氧核糖核酸越没有意义。令人吃惊的是, 在我们人体的脱氧核糖核酸中,有 95%以上是没有价值的基因内区段。肌肉营养不良基因就是一个很好的例子。克里斯托弗·威尔斯在他的题为《外显子、基因内区和谈谈基因》的论著中,对肌肉营养不良基因作了下列描述:

现在,大家都知道,沿着染色体的碱基有 250 万个,数量之大令人吃惊。由该基因(即肌肉营养不良基因)编码的蛋白非常大,即便这样,该基因只有 1.1 万个左右的碱基,只有在沿该基因长度上的很小的外显子中分布的所有碱基数的 0.5%。该基因的其余部分由 65 个以上的基因内区组成,这些基因内区不少都很大,足以将数十个其他基因隐蔽起来,尽管还没有人知道,实际情况是否这样。

也许,基因内区是剩余的零星病毒性传染成分⋯⋯或者人类进化已抛弃的一度起过作用的零星基因。无论基因内区的起源是什么,对遗传学家们来说,基因内区过去是谜,现在仍然是谜。人们都认为,活性细胞应当是效率很高的分子,不过,人体大多数的基因组只是废料而已。将全部基因,即基因内区和所有的一切都转录为信使核糖核酸并没有什么意义。显然,细胞利用特殊的酶来作快速编辑工作,去掉所有无意义的信息,将其

余的外显子编码的信使核糖核酸拼合,然后将其送往核蛋白体来制取蛋白。看上去,这样做造成时间上与能量上的极大浪费。杰罗尔德·M·洛温斯坦在 1992 年 12 月号的《发现》杂志上发表了一篇题为《令人吃惊的遗传作用》的文章。引用他在这篇文章中的话来说:“是这么随便地进行基因组运行的吗?”

肯定不是这样,于是有些遗传学家就推断,也许基因内区具有某种尚未发现的功能。美国威斯康星大学的奥利弗·史密西斯所作的一项研究表明,基因内区是进行基因表达所必不可少的。当他将某个特定的基因转移到细胞内时,基因并不表达自己(给某蛋白编码),除非是涉及其多个基因内区。在有些情况下,基因内区用作基因的强化因子,将它们的活动力由很小变为很大。而纳塔利·安吉尔则在 1994 年 6 月号《纽约时代》的一篇题为《揭示废料脱氧核糖核酸奥秘的关键》一文中谈到废料脱氧核糖核酸的另一项可能的功能:

废料的某些区域可能用作变化储备区,以便脱氧核糖核酸更方便地改组、突变和重组成加快演进的新型式(通过产生新基因)。

脱氧核糖核酸是生命物质。某受精卵细胞按照它的指示而成为一个人、一棵树或一条蚯蚓。自然界的任何事件都不会比此更壮观或更惊人。而现在,分子遗传学家们的探索工作开始首次揭示脱氧核糖核酸的不可思议的很多秘密。基因内区是有待探索的很多谜之一。基因表达的调节肯定是另一个谜。为什么一组细胞应成为人的眼睛,而另一组细胞(该组细胞具有完全同样的基因组)则应成为人的大脚趾?

世界各地的科学家们和政府有关部门认识到人体的脱氧核糖核酸的重要性,于 1990 年 10 月 1 日召开会议,并设立人体的基因组项目。该项目

期限为 50 年,其任务是将人的染色体内所含的、构成脱氧核糖核酸的所有

30 亿个碱基按顺序排好(只有一股螺旋需要排好顺序,因为另一股螺旋是相配的;就是说,在一股螺旋上的 ATC 顺序与另一股螺旋上的 TAG 相配)。按这个思路,我们很有希望发现碱基是以什么方法、在什么部位排列成数十万个功能单位(即基因)。

然而,这是一项令人生畏的任务。英国分子遗传学家西德尼·布伦纳博士认为,通过研究河豚(通常名叫■)可加速这项任务的完成。河豚这种鱼是一种独特的生物,爱吃寿司的食客爱吃河豚肉,因为它无刺激性, 富有弹性。然而,河豚的内脏毒性很大,日本厨师须接受两年培训方可进行这方面的独立操作。而每年仍然有百余人因吃生河豚肉而中毒致死。

■不仅有毒性,而且具有已知最小基因组的脊椎动物的特点——该基因组为人的基因组的七分之一(多数哺乳动物——无论是人、猫或鼹鼠—

—在其基因组中大体都有 30 亿个碱基。令人费解的是,有些植物的基因组

所拥有的碱基是这个数字的很多倍;例如,小麦有 160 亿个碱基,野百合

花有 1000 亿个碱基)。布伦纳博士确信,短缺的脱氧核糖核酸大部分是废料基因内区,而且河豚拥有人所具有的很多基因,只是其形式有所变化而已。鉴于要处理的废料脱氧核糖核酸少得多,因而绘制河豚的基因图容易得多,尔后再将这种知识用于发现人的类似基因。依我看,这是件好事。

(黄海元译)