二 RNA 的二级结构预测研究进展

目前普遍采用的热力学方法是基于寻找最小自由能构象。在一定温度下,RNA 分子的各种构象之间达成某种热力学平衡,通常认为自由能最小的构象是最稳定的构象。

[自由能参数]要得到 RNA 分子各种构象的自由能值,首先要给各个二级结构单元赋值。

  1. 双螺旋区 互补的两条寡核苷酸链形成双螺旋,两态模型是假设升高温度,双螺旋解离为两条单链,再测定特定序列的 RNA 的 TM(寡聚物的熔点)-CT(寡聚物浓度)曲线,根据

T−1 =

2.3R

△H 0

IgCT

△S0

+ △H0

公式作T-1 - lgC

图可得△H 0和△S0,再由公式△G 0

= △H 0 − T△S0

得该温度的△G 0 ,由于在37℃、1mol / L NaCl溶液可模拟常见的生理 溶液;所以一般选择 TM 在 37℃附近且符合两态模型的寡聚物进行测量的要求。

近邻模型是假设 RNA 中一对碱基的稳定性只依赖于邻近碱基对的种

类,RNA 中常见的结构块是含有 A·U 对和 G·C 对的双螺旋,其中有 10 种可能的邻近碱基对组合,这样各种 RNA 寡聚物的自由能都可用邻近碱基对的自由能之和表示。即对于双螺旋:■

■测量不同寡聚物的△G0 值,通过解方程组可得 10 种邻近碱基对的自由能值。

  1. 无规环区 RNA 中无规环区由于合成方法的限制,只能对几种较小

的无规环进行实验测量,环区自由能按下式得到:△ 0 =

△G 0

− △G 0

,大的发夹环、突起环和内部环的△G 0

( 含环区的双螺旋) ( 不含环的双螺旋)

值按下式外推:△ G0(n)=△G0(nmax)+1.75RTln(n/nmax),其中 n 是环内残基数,nmax 是已知实验数据的最长的环残基数;多分枝环由下式得:

△G 0 = a + bn + ch,其中a、b、c为可调参数,n是环内残基数,h是由

环连接的双螺旋数,当 a=4.6,b=0.4,c=0.1 时可得最好结果。

1977 年 Salser 对 RNA 的自由能参数作了系统的统计,被沿用多年, 后来随着寡核苷酸合成技术的提高,合成了大量的不同序列的寡核苷酸链用于实验测定,使自由能参数的准确率进一步提高,Turner 等对改进的参数作了系统的总结,成为目前普遍采用的参数。

[自由能极小化方法]常用的方法分为两种,一种是组合算法,它的出发点是把所有可能形成的双螺旋以所有可能的方式相结合,最终找出最小自由能结构。这种算法无疑太耗费机时,后来 Ninio 等人运用一种树状搜寻方法使机时有所降低,但机时仍以核苷酸数呈指数上升,这种程序只能限于计算含 150—200 个残基的序列。另一种是递归算法,首先对序列中所有五残基片断寻找最小自由能二级结构,然后扩展为六残基片断,如此反复直到最后的片断为整个序列。每一片断的最小自由能都以末端残基彼此配对和不配对两种情况计算。此算法比组合算法省时, 且可用于计算较大的 RNA 分子(2000 残基)。

通常用已知的几个 RNA 分子的二级结构来检验程序的可靠性,“预测准确率”的定义为:预测出的正确双螺旋数占已知的双螺旋总数的百分率。以上两种算法得出的最小自由能二级结构的准确率只有 70%。为了提高预测水平,Zuker 等改进了原有的递推算法程序,找出了在比最小自由能高出 5%及 10%范围内的一系列有代表性的次优结构,在此自由能范围内,预测准确率提高到了 90%。实验证明预测出的准确率最高的二极结构并非最小自由能结构。

无论是组合算法还是递归算法都未能将三级结构单元假结考虑在内,而最近 Abrahams 等的工作使 RNA 二级结构预测踏上了一个更高的台阶,他们首次对一系列含有假结的 RNA 分子预测出了较为准确的二级结构。

Abrahams 等设想了一个模拟 RNA 分子折叠的动力学过程,认为 RNA 分子二级结构的构象单元为双螺旋区,这个动力学过程由一个个双螺旋之间相互结合或彼此分离的速率所决定。一个双螺旋中,最初形成的碱基配对是这个双螺旋形成的决速步,各个双螺旋的形成又协同作用,即一个双螺旋形成时,会把另一个将要形成的双螺旋的两个半螺旋拉近, 从而使其迅速形成。一个双螺旋形成的速率由两部分自由能决定:(1) 关闭两个半螺旋间的无规环所需自由能;(2)碱基配对和碱基堆集释放的自由能。

程序首先计算出两部分自由能之和最小的双螺旋,然后确定下一个最有可能形成的双螺旋。此方法与递归算法本质上类似,只不过此时构象单元并非单个残基,而是一个双螺旋及与之相关的环区,并且此算法中考虑所有的碱基对堆集作用,包括那些不同螺旋区之间的配对堆集(例如假结)。此方法较其他算法的优越处在于考虑了几种空间相互作用及长程作用力,尤其是对于长链 RNA 分子预测结果比较好。