蛋白质结构预测的有关手段

蛋白质的结构预测是目前分子生物学研究中迫切需要解决的问题。已有许多科学家致力于这方面的工作。北京大学化学系结构化学实验室在这方面也开展了不少工作,但由于蛋白质结构的复杂性,至今尚未有人找到类似于 DNA 与蛋白质序列对应关系的密码子。目前的结构预测工作还是基于对已知蛋白质结构规律的总结、吸收、利用,即所谓的“基于结构知识的蛋白质结构预测”(Knowledge-Based Protein Modeling)。蛋白质结构预测研究的发展大体可分为两个阶段。

第一阶段属于对蛋白质空间结构进行消化的阶段 随着蛋白质晶体结构数据的积累,人们对于蛋白质的空间结构进行了大量的研究和分析,得出了许多经验规律。例如,蛋白质的结构可分为 4 类:α,β,

α/β,α+β;典型β蛋白质的结构由 2 个β折叠片构成,疏水残基侧

链伸向 2 个β片的内部而构成疏水性核心;典型α蛋白的结构有α螺旋

束等;α+β类蛋白的结构则是由 2 个平行的β折叠与 1 个α-螺旋构成的结构单元而形成的;β-转角(β-turn)可以分为Ⅰ、Ⅰ′、Ⅱ、Ⅱ

′、343Ⅲ等类型,这就使得人们对蛋白质的高级结构有了较为深入的认识。这方面的工作在蛋白质晶体学发展的初期就开始了,现在仍在继续。随着新蛋白质晶体结构的测定以及对原有数据更深入的分析,不断有新的结构类型被发现,对蛋白质结构规律的认识也将更加深入。同时也有人对已有的晶体结构数据进行了统计处理,发展了从蛋白质的一级结构预测其二级结构的方法。在以后的 20 多年中关于二级结构预测的方法又有了不少发展,但总的来说准确度均不超过 65%,成为蛋白质空间结构预测的一个制约条件。

第二阶段主要是试图利用理论计算的方法得到蛋白质的高级结构模型分子力学方法在处理小分子体系上的成功运用,激励着人们开始将其应用到蛋白质及核酸体系中,所根据的基本原理是蛋白质的活性构象对应于体系自由能最小的状态,在某种条件下也可认为是能量最小的状态。但由于蛋白质体系庞大,可变参数繁多,数学处理上的整体极小问题难以解决,所以无论是能量优化方法还是以后发展起来的分子动力学方法都无法从理论上解决使蛋白质折叠成正确构象的问题,只能进行在已有大体正确的结构参数后的局部结构优化或动力学模拟。利用理论计算方法直接从一级结构得出蛋白质的空间结构的努力就目前的情况来看还有很大的困难。

在理论上遇到了一时难以跨越的障碍后,人们又回过头来在已有的晶体结构数据中寻找规律。近年来新发展起来的一些方法以及构建三级结构的方法都基于实验数据的积累。例如二级结构预测的模式匹配方法就是在分类总结了已知结构蛋白质结构规律的基础上建立的。最近发展起来的利用神经网络算法进行二级结构预测的方法也是先对已有的结构进行学习,然后在此基础上进行预测。虽然仅靠一级结构的氨基酸序列信息的从头预测方法目前还存在着许多困难,但借助于一些其他信息还是可以成功地建立起立体结构模型的。这方面最为成功的一个例子就是T.Blundell 等发展的利用同源蛋白质的结构进行结构预测的方法,其原理是同一家族中的蛋白质结构和功能类似,利用同族中已知的蛋白质结构就可以建立起未知结构蛋白质的模型。作者所在的实验室对同源蛋白

结构预测方法进行了改进,其计算流程见下图。