【第三组】第四次研讨－蛋白质分析（下）

一米阳光

在上篇我们解决了前面提出的三个问题，在此篇内容里我们将解决接下来的四个问题并且根据自己的学习情况提出我们对蛋白质分析的相关思考。 1.什么是PDB？蛋白质结构数据库（protein data bank， PDB）是美国Brookhaven国家实验室于1971年创建的，由结构生物信息学研究合作组织（Research Collaboratory for Structural Bioinformatics， RCSB) ，是全球最主要的收集生物大分子(蛋白质、核酸和糖)2.5维（以二维的形式表示三维的数据）结构的数据库。该数据库是结构生物学研究中的重要资源，并且每周更新，截至2022年11月，PDB数据库已收集了约20万条实验测得的结构数据。PDB数据库是目前最主要的收集生物大分子（蛋白质、核酸、多糖和病毒）结构的数据库，其中的三维结构主要通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定。PDB储存的内容包括生物大分子的原子坐标、参考文献、一级和二级结构信息，也包括了晶体结构因数以及NMR实验数据等。 2.研究意义 用户可以在 PDB 数据库查找核糖体、致癌基因、药物靶标，甚至整个病毒的结构。具体内容包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。对PDB数据库库进行数据挖掘和统计的最终目的是为了能够通过对已知结构的蛋白质数据的数据挖掘，发现蛋白质序列和结构之间的某种联系或者规律，加深我们对蛋白质序列决定结构的机理的了解，并最终能寻找更好的蛋白质二级结构预测方法。基因是生命的蓝图，蛋白质是生命的机器。来自于四种字符字母表（A，T（U），C，G）的核酸序列中蕴藏着生命的信息，而蛋白质则执行着生物体内各种重要的工作，如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等工作。蛋白质序列由相应的核酸序列所决定，通过对基因的转录和翻译，将原来四字符的DNA序列，根据三联密码翻译成20字符的蛋白质氨基酸序列。 蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构，实验分析表明蛋白质能够形成特定的结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链，肽链上的氨基酸残基形成局部的二级结构，各种二级结构组合形成完整的折叠结构。蛋白质分子很大，其折叠的空间结构会将一些区域包裹在内部，而将其它的区域暴露在外。在蛋白质的空间结构中，序列上相距比较远的氨基酸可能彼此接近。在水溶液中，肽链折叠成为特定的三维结构。主要的驱动力来自于氨基酸残基的疏水性，氨基酸残基的疏水性要求将氨基酸疏水片段放置于分子的内部。 研究蛋白质的结构意义重大，分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构，有助于了解蛋白质的作用，了解蛋白质如何行使其生物功能，认识蛋白质与蛋白质（或其它分子）之间的相互作用，这无论是对于生物学还是对于医学和药学，都是非常重要的。对于未知功能或者新发现的蛋白质分子，通过结构分析，可以进行功能注释，指导设计进行功能确认的生物学实验。通过分析蛋白质的结构，确认功能单位或者结构域，可以为遗传操作提供目标，为设计新的蛋白质或改造已有蛋白质提供可靠的依据，同时为新的药物分子设计提供合理的靶分子及结构。 同源建模也称为比较建模，根据与已知结构的序列同源性预测蛋白质结构。它基于“如果两个蛋白质具有足够高的序列相似性，它们很可能具有非常相似的三维结构”的原理。因此，它依赖于一种或多种可能类似于查询序列结构的已知蛋白质结构的鉴定，以及依赖于将查询序列中的残基映射到模板序列中的残基的比对的产生。因此，如果蛋白质序列之一具有已知结构，则可以以高置信度将该结构复制到未知蛋白质。穿针引线法是将序列“穿入”已知的蛋白质折叠子骨架内，基于折叠子模板，通过将未知结构蛋白质的氨基酸序列与结构数据库中的结构进行比对打分，构建蛋白质结构模型的一种蛋白质三级结构预测方法。 DeepMind 提出的深度神经网络蛋白质形态预测方法——AlphaFold系统，是DeepMind在2017-2018年中一直在研究的项目，它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多，在生物学的核心挑战之一上取得了重大进展。AlphaFold 构建的模型都依赖深度神经网络，这些经过训练的神经网络可以从基因序列中预测蛋白质的属性。DeepMind 的研究人员表示，神经网络预测的蛋白质属性主要有：（a）氨基酸对之间的距离；（b）连接这些氨基酸的化学键及它们之间的角度。这些方法的首要进步就是对常用技术的提升，它们可以估计氨基酸对是否彼此接近。DeepMind训练了一个神经网络来预测蛋白质中每对残基之间的距离分布。然后将这些概率合并成一个分数，以估计提出的蛋白质结构有多精确。 DeepMind还训练了一个单独的神经网络，它综合使用所有的距离来估计所提出的结构与正确答案的接近程度。使用这些打分函数，我们能够搜索蛋白质，找到符合我们预测的结构。我们的第一个方法建立在结构生物学常用的技术上，并用新的蛋白质片段反复替换蛋白质结构的片段。我们训练了一个生成式神经网络来创建新的片段，这些片段被用来不断改进所提出的蛋白质结构的得分。 第二种方法通过梯度下降来优化分数，这是机器学习中常用的一种数学技术，用于进行小的、渐进的改进，从而产生高度精确的结构。该技术应用于整个蛋白质链，而不是在组装前必须分开折叠的片段，从而降低了预测过程的复杂性。 Alphafold 主页面 2018年12月，DeepMind的AIphaFold成功预测了43种蛋白质中25种蛋白质的最准确结构，赢得了第13届蛋白质结构预测技术关键评估（CASP）。AlphaFold 构建的模型依赖于深度神经网络，这些经过训练的深度神经网络可以从基因序列中预测蛋白质的属性。神经网络预测的蛋白质属性主要有：（a）氨基酸对之间的距离；（b）连接这些氨基酸的化学键及它们之间的角度。DeepMind以跨学科的方式开展工作，汇集了结构生物学、物理学和机器学习领域的专家，应用尖端技术，完全基于蛋白质的基因序列来预测蛋白质的3D结构。AlphaFold解决的问题是蛋白质折叠问题。输入是一个氨基酸序列，每一个位置代表一个元素，输出是一个拓扑结构，训练了一个生成式神经网络来创建新的片段，这些片段被用来不断改进所提出的蛋白质结构的得分。 esmatlas主页面 ESMFold模型的架构也可以分为四部分：数据解析部分、编码器部分（Folding Trunk）、解码器部分（Structure Module）、循环部分（Recycling）。 ESMFold和AIphaFold之间的一个关键区别是使用语言模型表示来消除对显式同源序列（以MSA的形式）作为输入的要求。语言模型表示作为输入提供给ESMFold的折叠主干。通过将处理MSA的计算量大的Folding Block模块替换为处理序列的Tranformer模块来简化AlphaFold2中的Evoformer。这种简化或优化意味ESMFold会比基于MSA的模型快得多。 此外，ESMFold是一个完全端到端的序列结构预测器，可以完全在GPU上运行，无需访问任何外部数据库。 接下来是我们小组通过讨论引发的一些问题与思考： 1.蛋白质二级结构的预测的方法分为哪几类？（1）第一代是基于单个氨基酸残基统计分析，从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。（2）第二代预测方法是基于氨基酸片段的统计分析，使用大量的数据作为统计基础，统计的对象不再是单个氨基酸残基，而是氨基酸片段，片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时，以残基在特定环境形成特定二级结构的倾向作为预测依据。这些算法可以归为几类：（1）基于统计信息；（2）基于物理化学性质；（3）基于序列模式；（4）基于多层神经网络；（5）基于图论；（5）基于多元统计；（6）基于机器学习的专家规则；（7）最邻近算法。第一代和第二代预测方法有共同的缺陷，它们对三态预测的准确率都小于 70%，而对β折叠预测的准确率仅为28～48%，其主要原因是这些方法在进行二级结构预测时只利用局部信息，最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明，二级结构的形成并非完全由局域的序列片段决定，长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响，尤其是β折叠。从理论上来说，局部信息仅包含二级结构信息的65%左右，因此，可以想象只用局部信息的二级结构预测方法，其准确率不会有太大的提高。 （3）第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息，使二级结构预测的准确程度有了比较大的提高，特别是对β折叠的预测准确率有较大的提高，预测结果与实验观察趋于一致。一般75%的氨基酸残基可以被置换而不改变蛋白质的结构，然而有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论，但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化，不可能变化的部分是进化保守区域。可变部分的变化不改变结构，而不可变部分的变化则改变蛋白质的结构，由此失去蛋白质原有的功能，因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样，从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息，得到蛋白质家族中的特定残基替换模式，此外，通过序列的比对也可以得到长程信息。 2. 现有的蛋白质结构预测算法有哪些？（1）基于模板的结构预测方法SWISS-MODEL（基于同源建模）Modeller（基于同源建模）I-TASSER（基于穿线法）（2）无模板的结构预测方法无模板结构预测方法的发展不仅受实际应用的驱动 (并不是所有目标蛋白都能在结构数据库中找到满意的模板), 更受到蛋白质折叠密码这一基本科学问题的推动。注：由于计算量巨大、力场精度不够等原因, 目前无模板的结构预测方法还只能应对尺寸相对较小(<150 残基) 的目标蛋白。 3. 蛋白质三级结构预测方法有哪些？l从头计算法（ab initio）l同源建模法（homolog modeling）l穿线法（threading）l综合法（ensemble method）（1）homolog modeling: SWISS-MODEL原理：相似的氨基酸序列对应着相似的蛋白质结构步骤：①　找到与目标序列同源的已知结构作为模板（目标序列与模板序列之间的一致度要≥30%）②　为目标序列与模板序列（可以多条）创建序列比对。通常比对软件自动创建的序列比对还需要进一步人工矫正。③　根据第二步创建的序列比对，用同源建模软件预测结构模型④　评估模型质量，并根据评估结果重复以上过程，直至模型质量合格。预测效果：如果目标序列与模板序列一致度极高，那么同源建模法是最准确的方法。（2）threading:I-TASSER原理：不相似的氨基酸序列也可以对应着相似的蛋白质结构（3）ab initio:QUARK原理：1973年science，Anfinsen：蛋白质的三维结构决定于自身氨基酸序列，并且处于最低自由能状态。QUARK适用于没有同源模板的蛋白质，且氨基酸序列长度应在200以内。单独注册账号，一次只能提交一个任务。（4）ensemble method:ROBETTA原理：综合了前三种方法，将氨基酸序列分段，情况不同的片段采用不同的方法。 除此之外我们还有一个问题希望能跟大家一起讨论：如何进行蛋白质同源性检测和结构比对？ 小组成员：任倍佳张钰洁陈瑞卿陈青青柳国蓉