1.2同源建模发展情况
1.2.1同源建模的意义
蛋白质三维结构数据的测定法法包括:X-ray、NMR和同步辐射光源。X射线的特点是可做大蛋白结构分析、需要蛋白结晶,但是多数蛋白无法结晶,所以能够用X射线测出晶体结构的蛋白非常少。而NMR无需结晶,但只能做中、小蛋白质,序列范围为几百个氨基酸残基。
上述方法各有优缺点,导致不是每一条新发现的蛋白质的三维结构都能够被精确测定。但是实验室对酶和蛋白的研究又急需新蛋白的三维数据。由于DNA数据的增速(见图1.4),远远大于蛋白质结构数据的增速(见图1.5)。通过DNA序列预测出来的蛋白质数量和已测定结构的蛋白质数量(PDB数据库)之间的差距越来越大,我们希望蛋白质结构测定的速度能够跟上蛋白质序列产生的速度。
图1.4 UniprotKB/swiss-prot 蛋白质数据增加情况 Fig1.4 the increase of protein in UniprotKB/swiss-prot database
图1.5 PDB数据库中蛋白质结构数据增加情况 Fig1.5 The increase of protein structure in PDB
1.2.2同源建模的概念
在这种情况下,随着近年来信息技术的兴起,蛋白质结构预测技术的发展,运用计算机技术获得蛋白三维结构已经成为比较成熟的方法。同源建模技术具体是指在已经存在晶体结构的蛋白质中寻找与目标序列同源性较高(一般>30%)的蛋白作为模板,模拟构建目标序列的三维结构。其基本原理是任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同[7~9]。 1.2.3 同源建模的一般流程
同源建模的一般流程为[10]: ⑴搜索结构模型的模板
利用Blast工具,将目标序列在蛋白质结构数据库(PDB)进行同源搜索,寻找与目标序列有较高同源性的蛋白质,选择同一性较高,分辨率较高且与底物形成复合物的结构作为模版。
⑵序列比对
通过目标序列与模板序列的比对确定目标序列的保守结构,使其残基匹配,比对中允许插入和删除操作。
⑶建立模型
建立模型分三个部分,第一个是模型骨架建立,通过比对,使用模板结构中匹配残基的骨架;第二个是蛋白质的侧链建立,用构建的骨架与已知数据库进行比对,寻找相同的片段,借此从数据库中提取局部结构数据;第三个是蛋白环区的建立,环区是指二
级结构之间的区域,经验性方法是从已知结构的蛋白质中寻找一个最有的环区,使用其结构数据。另一种方法是从头计算,一句量子化学原理计算其能量最低结构。
⑷优化模型
上述步骤得到了的初步结构模型,需要进行优化、改进,让模型内部重要区域或者整个模型的键长和键角处于合理位置,是对接结果更接近事实。具体方法:分子力学、分子动力学、模拟退火等。
⑸ 模型评价
我们采用多种方式建模,所建结果就需要用不同的方法去评价,从而确定最终对接使用的模型。不同的评价方法从不同的角度去评价模型的质量,我们根据需要选择。目前有很多服务器和网站提供模型的评价,评价结果可以作为模型合理性的参考数据。
1.3 蛋白质和蛋白质结构数据库
1.3.1蛋白质结构数据库
⑴PDB( www.rcsb.org/pdb/home/home.do)
蛋白质结构数据库PDB是世界唯一的生物大分子3D结构数据仓库,包含蛋白质和核算。这些生物大分子是在所有生物中发现的,包括细菌,酵母,植物其他动物和人。理解一个分子的结构有助于理解它是怎样工作的。这些知识能够帮助推断一个分子的结构在人类疾病中扮演的脚色,还能帮助开发药物。仓库中的数据包括小蛋白、小片段DNA到复杂的分子机器例如核糖体。PDB是免费的,数据库在每周三更新。PDB在1971由布鲁克海文国家实验室建立,1998年结构生物信息合作研究室管理(RCSB)PDB。PDB收集的数据包含X-ray和核磁共振(NMR)产生的数据。同时PDB还支持了一个网站,访问者可以来执行简单的查询搜索功能。使用PYMOL等三维结构显示工具可以按照PDB的格式现实生物大分子的三维结构。
⑵MMDB (http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure)
分子模型MMDB 是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。 与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。
⑶ SCOP http(http://scop.mrc-lmb.cam.ac.uk/scop/)
SCOP数据库 ( http://scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白
质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:
(1)家族:具有明显的进化关系
(2)超家族:具有远源进化关系,具有共同的进化源 (3)折叠类:主要结构相似
SCOP 还提供一个非冗余的 ASTRAIL 序列库,这个库通常被用来评估各种序列比对算法。此外, SCOP 还提供一个 PDB-ISL 中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
⑷PROSITE ( http://www.expasy.ch/prosite/)
PROSITE ( http://www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 在特殊情况下,目标序列与已知结构的蛋白质的整体序列相似性很低,但是由于功能的需要保留了许多与功能密切相关的序列模式,就可以通过它搜索到隐含的功能motif。 1.3.2蛋白质数据库
⑴PIR (http://pir.georgetown.edu/)
PIR是国际上最大得公共蛋白序列数据库。它是为了帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组而建立的。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。包含超过535698条蛋白质序列(至2012.04)。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。
除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献;
(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。 PIR提供三种类型的检索服务:
一是基于文本的交互式查询,用户通过关键字进行数据查询。 二是标准的序列相似性搜索,包括BLAST、FastA等。
三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。
(2) UniprotKB/Swiss-Prot(http://www.expasy.ch/sprot/sprot-top.html)
Swiss-Prot是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过人
工注释的。
SWISS-PROT数据的不同来源: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录;
(4)研究人员直接提交的蛋白质序列数据
在SWISS-PROT中,数据分为核心数据和注释两大类。
核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)。 注释包括:
(A)蛋白质的功能描述; (B)翻译后修饰;
(C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构;
(E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性;
(G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。
1.4序列比对
1.4.1 序列对比的意义
序列比对,是生物信息学的核心研究内容之一,也是各种序列分析任务的基本方法。在生物学研究过程中,为了确定新测序列的生物属性,经常需要进行序列同源性分析,就是将新序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作通常使用序列比对的方法。不仅如此,在蛋白质结构预测等,序列比对也是最为重要的一种方法。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。一般认为蛋白质的结构和功能比序列具有更大的保守型,如果序列之间的相似性超过30%,它们很可能就是同源的。 1.4.2原理和方法
序列的比对方法可以按不同的标准进行划分,目前,已知的序列比对方法很多,包
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库蛋白质3D建模,酶与底物分子模拟对接 autodock(3)在线全文阅读。
相关推荐: