【第三组】生物信息学第五次研讨－序列比对

一米阳光

本周我们进行了生物信息学第五次研讨，解决了老师提出的一些问题，以下是我们关于六个问题的解答 定义：多序列比对（多序列联配，Multiple sequence alignment， MSA）是指把多条（3 条或以上）有系统进化关系的蛋白质分子的氨基酸序列或核酸序列进行比对，尽可能地把相同的碱基或氨基酸残基排在同一列上。原理:序列比对是将同源序列位点上匹配位点（相同或相似残基）与不匹配位点（不相似的残基）按照一定的记分规则转化成序列间相似性或差异性数值进行比较，相似值最大时的比对结果具有最多的匹配位点，从数学角度讲，应该是最优的比对结果。比对结果反映了数学模型或算法在多大程度上反映序列之间的相似性关系以及它们的生物学特征目的和意义：序列比对主要是为了寻找相似的序列，相似的序列往往起源于一个共同的祖先序列，它们很可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的机构和功能已知，则可以推测这个未知结构和功能的蛋白质的结构和功能。大体包括：·用于描述一组序列之间的相似性关系，以便了解一个分子家族的基本特征，寻找Motif，保守区等。·用于描述一组同源序列之间的亲缘关系的远近，应用到分子进化分析中。（序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小）·其他应用，如构建profile，打分矩阵等。常用软件：序列比对的软件非常多，目前比较主流的序列比对软件：Muscle, MAFFT, Clustal w(x), T-coffee. 在比对时需要考虑两个问题，一个比对的精度，另外一个是比对的速度。Speed: Muscle>MaFFT>Clustal w>T-coffeeAccurancy: MAFFT>Muscle>T-coffee>Clustal wDANMAN是一个简单常用的核酸序列分析软件，它支持多序列比对、序列同源性分析、限制性酶切位点分析、PCR引物设计、质粒绘图等多种功能，并且是非常友好的Windows界面、软件占用内存小、兼容性也比较好，DNAMAN可以说是分子生物学人的必备工具之一了。 Clustal是基于渐进比对的多序列比对工具，有应用于多种操作系统平台的版本，包括linux版，DOS版的clustlW，clustalX等。ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树，是最常用的是多序列比对。但是由于它采用一种渐进的比对方法，不能保证能够得到最优的比对，而且速度也不够快。 Muscle是一款速度最快的比对软件之一，在速度和精度上都优于ClustalW，可以比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大。它采用迭代方法进行比对运算，每一次最优化过程就是迭代过程，通过不断地使用动态规划算法重排来纠正这种错误，同时对这些亚类群进行比较以获得所有序列地全局比对。但是Muscle地准确度降低了，并且对于内存的要求较高。 MAFFT做多序列比对的精确度和速度都是比较高的，在使用时需要调节的参数也比较少。目前的版本提供两种比对方法，渐进方法和迭代细化方法，也包括更快地对大量序列进行比对的选项、更高精度的比对、非编码RNA序列的比对等。MAFFT也有在线版和本地版。 分子钟（molecular clock）的概念诞生于19世纪60年代，发展到现在，它已经成为进化生物学上，一种很重要的评估工具。简单来说，在结合像是化石，地质学特征（比如东非大裂谷大概是在多少万年前形成的）等这类有比较明确的出现时间的信息后，分子钟可以被用来评估进化树上，任意两个物种大概的分化时间。那进化生物学的前提假设，就是万物都有同一起源，那在这个前提下，分子钟的理论就假说，任意两个物种，自从分化成两个物种后，它们之间的遗传差异（DNA或者蛋白序列）的进化速度应该与分化的时间时保持相对稳定的。用白话讲，比如人与猴子分化的时间肯定时短于人与青蛙的分化时间的，因此人与猴子之间的DNA差异肯定就比人与青蛙之间的DNA差异要小。 同理也可以推导，两个物种的遗传差异与它们上一次从共同祖先分离出来的时间，也应该是成正相关比例的（比如每多过100万年，就会多1%的差异）[1]。如此这般后，分子钟假设就成为了一种用来研究物种进化时间的，非常有用的方法。尤其是对于研究那些几乎没有在化石中留下任何生物学痕迹的物种，像是扁形虫或者古病毒等[2]。 同理也可以推导，两个物种的遗传差异与它们上一次从共同祖先分离出来的时间，也应该是成正相关比例的（比如每多过100万年，就会多1%的差异）[1]。如此这般后，分子钟假设就成为了一种用来研究物种进化时间的，非常有用的方法。尤其是对于研究那些几乎没有在化石中留下任何生物学痕迹的物种，像是扁形虫或者古病毒等[2]。 使用分子钟的实例：2008年发表的一项研究结果就用到了分子钟的方法，研究人员想要了解不同鸟类物种的进化速度和分化时间。最终他们选择了一个编码细胞色素B的鸟类线粒体基因（mitochondrial gene），通过比较这个基因在不同鸟类中的序列差异，来评估鸟类的平均进化速度和分化时间。最后，基于分析结果，他们推断任意两种鸟类之间的平均进化速率，大概在每100万年，增加2%的差异[2]，这就是在鸟类遗传学领域著名的“2%规则”。 系统发育树或进化树是各种分类群之间进化关系的图解表示（图1 A-D）。它是由节点和分支组成的分支图。树的分支模式称为树的拓扑结构。节点代表分类单位，如物种（或更高分类群）、种群、基因或蛋白质。分支称为边，代表分类单位之间进化关系的时间估计。一个分支只能连接两个节点。在系统发育树中，末端节点代表操作分类单元（operational taxonomic units，OTU）或叶节点。OTU是真实的物体，比如正在比较的物种、种群、基因或蛋白质序列。而内部节点代表假设的分类单位（hypothetical taxonomic units，HTUs）。HTU是一个推断单元，它表示从这一点产生的节点的最后一个共同祖先（last common ancestor，LCA）。从同一节点分裂出来的子节点（类群）形成姐妹群，而落在进化支（clade）外的类群称为外群。例如，图1 B中的T2和T3是姐妹群，T1是T2和T3的外群。系统发育树可以缩放，也可以不缩放。在有比例的树中，分支长度与沿着该分支发生的进化趋异量（例如核苷酸替换的数量）成正比。在无比例树中，分支长度与进化趋异量不成正比，但通常实际数量会在分支的某个位置显示出来。系统发育树可以是有根的(图1 A和B)，也可以是无根的(图1 C)。有根树有一个根节点，树的其余部分从这个节点分叉。这个根通常被称为最后普遍共同祖先（last universal common ancestor，LUCA），随着时间的推移，其他分类群体从它进化并分化出来。在分子系统发育学中，LUCA和LCA以DNA或蛋白质序列表示。获得一个有根树是理想的，但大多数系统进化树构建算法产生的是无根树。 图1 系统发育树的不同表现形式 联系：分子进化钟理论是分子进化研究中的一个核心概念，它基于一个假设，即特定蛋白质的进化变异速度在不同的物种中是基本恒定的。这个理论意味着，两个蛋白质的序列越相近，它们距离共同祖先的时间就越近。这为利用生物大分子的序列差异来推断物种间的进化关系提供了理论基础。系统发育树（又称为系统进化树）则是一种用类似树状分支的图形来概括各物种之间亲缘关系的工具。通过比较不同物种的DNA、RNA或蛋白质序列，可以构建出反映这些物种间进化关系的系统发育树。在系统发育树的构建过程中，分子进化钟理论的应用可以帮助确定不同分支间的进化距离，从而更准确地描绘出物种间的进化历程。 区别：根据是否指定根节点，进化树分为有根树和无根树（下图），有根树就是有根，无根树就是无根。有根树：有根树有一个根节点，代表所有其它节点的共同祖先，从根节点只有唯一路径经进化到达其他任何节点。无根树：无根树只表明了节点之间的关系，没有进化方向，但通过引入外围群（out group）或外部参考物种可以在无根树中指派根节点。 有根树反应了树上物种或基因进化的时间顺序，通过分析有根树的长度，可以了解不同的物种或者基因以什么方式和速率进化。有根树绘制过程中需要引入外群，因而具有一个根节点，作为树中所有物种（样本）的共同祖先节点，可以判断演化方向，反映分类单元间的进化关系，外群与进化树中其他物种（样本）的亲缘关系不宜太近，也不能太远，一般构建种内不同品种/亚种间的进化树，外群应选择同属内其他物种，构建属内不同种间的进化树，外群应选择科内其他属物种。无根树绘制过程中并未引入外群，因而没有根节点，无法判断演化方向，只反映分类单元之间的距离，而不涉及谁是谁的祖先的问题。 拓展---进化树一般有几部分组成，如下：1、根（root）：所有分支的共同祖先叫做根。根据有无根，分为有根树和无根树。2、节点（node）：每个节点代表一个分类单元，物种上可以是属、种等，而基因或蛋白上可以是基因或蛋白家族等。3、进化支（branch）：也叫做分支，是指物种、基因或蛋白之间的进化关系。4、外群：与目标物种或者序列相关的物种或序列，但是具有较远的亲缘关系。5、进化分支长度：也叫遗传变异度，进化距离。一般会标注在分支线上，代表进化支变化的程度，越短代表差异越小，进化距离越近。我们可以从水平方向上的分支及长度，看到进化谱系随着时间的变化，进化分支长度越长代表着该分支对应的物种或基因的变化越大。6、距离标尺：生物或序列间差异数值的单位长度，相当于进化树的比例尺。7、自展值（Bootstrap value）：自展值一般标注在节点位置，用于评估该分支的可信度。如果低自展值更靠近分支末端，那么代表相似度太高而难以区分；如果低自展值更靠近根，代表相似度太低。自展值太低的话，也在一定程度上表示该进化树是不可靠的。 如何选择有根树外围群:1. 选择外围群时应该选择与研究对象有关系的近缘群。例如，如果研究对象是一种哺乳动物，那么选择与之亲缘关系较近的其他哺乳动物作为外围群，而不是选择鸟类或爬行动物等无关群。2. 外围群应该尽可能包含所有的主要进化支系。例如，如果研究对象是一种鸟类，那么应该选择多个鸟类的代表物种作为外围群，以覆盖鸟类的主要进化支系，而不是只选择一两个鸟类作为外围群。3. 外围群的数量应该适当，不宜过多或过少。过多的外围群会增加分析的复杂度，而过少的外围群则可能导致分析结果不准确。4. 外围群的选择应该是基于系统发育树的假设和分析方法来进行的。例如，如果采用基于最大似然法的系统发育树构建方法，那么应该选择适合该方法的外围群，以获得更准确的分析结果。、 （1）距离法：原理：距离法又称距离矩阵法,首先通过各个物种之间的比较, 根据一定的假设 (进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵进化树的构建则是基于这个矩阵中的进化距离关系。适用范围：其计算一般很直接，所生成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。（2）最大简约法（Maximum parsimony，MP）原理：基于奥卡姆（Ockham）哲学原则，这个原则认为：解释一个过程的最好理论是所需假设数目最少的那一个。方法:计算所有可能的拓扑结构；计算出所需替代数最小的那个拓扑结构，作为最优树。适用范围：用于分析如插入、缺失等序列。在分析序列上存在较多的回复突变或平行突变，而被检验的序列位点数又比较少的时候，最大简约法可能会给出一个不合理的或者错误的进化树推导结果。（3）最大似然法（Maximum likelihood，ML）该方法的基本思想是：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。方法：选取一个特定的替代模型来分析给定的一组序列数据，使得获得的每一个拓扑结构的似然率都为最大值，然后再挑出其中似然率最大的拓扑结构作为最优树（所以分析时间比较长）适用范围：最大似然法具有很好的统计学理论基础，选择合理的模型后，最大似然法可以推导出一个效果很好的进化树结果。但是对于相似度很低的序列，有时会严重干扰进化树的构建。（4）贝叶斯法(Bayesian Inference, BI)原理：保留了最大似然法的基本原理，还引进了马尔科夫链的蒙特卡洛方法(Markov chain Monte Carlo/MCMC)，来模拟演化树的较晚期可能性分布。贝叶斯法根据多种分子进化模型，利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posterior probability)估计值，这些参数包括拓扑结构、分支长度和替代模型各参数的估计。该方法不仅可以对模型的参数进行直接量化，而且可以分析很大的数据集，其采用后验概率来表示各分支的可信性。优点：推导系统树、评估系统树的不确定性、参考化石记录计算分歧时间和检测分子钟。贝叶斯法得到的系统进化树不需要利用自展法进行检验，其后验概率直观地反映了系统进化树的可信程度，是一种系统进化分析的好方法，它既能根据分子进化的现有理论和各种模型用概率重建系统进化关系，又克服了最大似然法计算速度慢、不适用于大数据集样本的缺陷。 MEGA：MEGA（Molecular Evolutionary Genetics Analysis）是一款集序列比对、序列分析与系统进化树构建于一体的开源软件。MEGA软件具有分析效率高、操作简单和功能一体化等优点。登陆MEGA官网（https://www.megasoftware.net/）即可免费下载使用，Window/Mac/Linux三个平台都有可用的版本，当前最新版本是MEGA X。系统发育树; 也称系统进化树(phylogenetic tree), 它是用类似树状分支的图来表示各种生物之间的亲缘关系, 通过对基因序列或蛋白质的对比分析来表征物种之间进化地位远近的一种方式。系统发育树主要是依靠它的拓扑结构和分支长度来展示所推演的进化过程。根据拓扑结构的不同系统发育树可以分为有根树和无根树。有根树有一个根节点，代表所有其它节点的共同祖先，从根节点只有唯一路径经进化到达其他任何节点；无根树只表明了节点之间的关系，没有进化方向，但是通过引入外群（outgroup）或外部参考物种可以在无根树中指派根节点。可用来建树的数据： DNA or Protein （染色体基因、线粒体、叶绿体、16S、基因保守区（MLST、domain序列）等）；可用来建树的方法：NJ（邻接法）、ML（最大似然法）、MP（最大简约法）、Bayes (贝叶斯法)；可用来建树的模型：DNA（GTR、TN93、HKY等）、Protein（JTT、WAG、LG等）。 系统发育树构建的一般过程： BLAST:BLAST全称Basic Local Alignment Search Tool，是查询序列在蛋白质数据库或者基因数据库中进行局部对比搜索的工具，分析的结果是以统计评分的方式呈现。其中，最常用的3个评分指标分别是E value，Total Score，Per.Ident。 在概述栏中，Per.Ident代表了所在行的序列与被BLAST的序列的相似度。Per.Ident越大，表示该序列与被测序列相似度高，一般Per.Ident>97%就可以认为该序列与被测序列属于同属。本文简要分享以MEGA7软件为工具，构建系统进化树的操作流程（具体参数细节请MEGA官网教程说明）。当我们想要建立一个系统发育树时，大概率是两个原因：1) 你获取了一个或多个基因片段，希望通过分子序列分析判定这些这些片段是来源于哪种属的？了解目标基因在整个进化体系中所处的地位，以及判断其与其他基因片段（或种）的亲缘关系；2) 当你获取大量同源基因序列，你想要了解这些同源基因序列之间的进化关系与亲缘关系（譬如，新冠疫情全球爆发时，在世界各地采集的新冠病毒基因序列，往往呈现出来源于同一个国家或地区的亲缘关系更近）。 这里补充一下有关的算法的介绍：在系统进化学中，常用的树构建方法包括最大简约法（Maximum Parsimony, MP）、最大似然法（Maximum Likelihood, ML）、贝叶斯方法（Bayesian Inference, BI）和邻接法（Neighbor Joining, NJ）等。这些方法都有各自的优点和局限性，下面简单比较一下它们的特点：最大简约法（MP）：MP是一种基于字符分析的树构建方法，它假设在进化过程中尽量减少进化事件的数量。因此，MP方法的优点是计算速度快，适用于小样本和小数据集。缺点是对数据的缺失和多态性较敏感，而且在复杂模型中的应用效果不如其他方法。最大似然法（ML）：ML是一种基于模型的树构建方法，它利用概率模型计算数据的似然度，寻找最有可能产生观测数据的树。ML方法的优点是对数据的缺失和多态性较为鲁棒，而且在复杂模型中有较好的表现。缺点是计算复杂度高，需要较长的运行时间，且对于大数据集和复杂模型来说，可能会出现过拟合的情况。贝叶斯方法（BI）：BI是一种基于概率的树构建方法，它使用贝叶斯统计学原理估计树的后验概率。BI方法的优点是可以有效处理多态性和缺失数据，并且可以提供树的置信度。缺点是计算复杂度较高，需要长时间的运行，同时也需要选择合适的先验概率分布。邻接法（NJ）：NJ是一种基于距离的树构建方法，它利用序列之间的距离计算树的拓扑结构。NJ方法的优点是计算速度快、稳定性高、适用于大样本和大数据集。缺点是对于距离矩阵的错误或偏差比较敏感，因此需要合理选择距离计算方法。需要注意的是，不同的树构建方法可能会产生不同的树结构和分支长度，因此选择合适的方法需要根据实际情况来确定。同时，多种方法结合使用或对比分析可以更好地提高分析结果的准确性。一般我们在MEGA中选择第二个邻接法（Neighbor Joining, NJ）来绘制系统发育树，设置参数设置，Bootstrap method，1000次。 进化树评估：用截然不同的距离矩阵法与简约法分析一个数据集，如果能产生相似的系统发育树，这样的树可以认为是可靠的。我们一般用Bootstrap（自展法）进行检验，现在一般文章要求Bootstrap值1000。虽然根据严格的统计学概念，自展值要大于95%才较为可信，然而在实际应用中，特别是微生物等相似度比较大的分类中，一般大于50%就认为可信（小于50%隐去）。系统发育树的一般解读如下图 距离标尺：进化树可以显示序列的差异度，这里的标尺就可以当做为进化树的“比例尺”。分支长度：在树形结构中，枝长累积距离越近的样本差异越小，反之差异越大。比如OTU16与Nitrosospira multiformis的差异度是A1+A2，OTU16与Nitrosospira briensis的距离是A2+A3+A4，以此类推。自展值：刚才已经讲过关于自展值的评估方法。自展值可以显示可信度。一般低于50%的会隐去。那啥情况下会低于50%呢，两种情况，相似度太低或太高。一般来说，低自展值靠近分支末端，可能是由于相似度太高难以区分，这时建议可以换一个基因建树。如果低自展值靠近根，可能是由于相似度太低。 除了解决以上问题之外我们还提出了自己的思考： 一、各多序列比对软件的优缺点？1. BLAST (Basic Local Alignment Search ToolBLAST 是最常用的序列比对工具之一。它可以在短时间内快速比对大量生物序列。BLAST 提供了多种不同的比对算法，包括常见的 BLASTN（nucleotide 序列比对）和 BLASTP（蛋白质序列比对）。BLAST 的优点是速度快、易用性好，适用于快速筛选大量相似序列。2. ClustalWClustalW 是多序列比对的常用工具之一。它使用多重序列比对算法，将多个序列的相似部分按照最佳的方式对齐。ClustalW 可以在网页界面或命令行中使用，对于中小规模的序列比对非常高效。3. MUSCLE (MUltiple Sequence Comparison by Log-Expectation)与 ClustalW 类似，MUSCLE 也是一种常用的多序列比对工具。它采用较新的比对算法，能够更加准确和高效地进行大规模序列比对。MUSCLE 的优点是能处理大量序列，且能够生成高质量的比对结果。4. MAFFT (Multiple Alignment using Fast Fourier Transform)MAFFT 是一种高性能的多序列比对工具，其算法基于快速傅立叶变换。它可以处理大规模序列，且比对结果质量高。MAFFT还提供了许多可选参数，以满足用户对比对过程的个性化需求。5. T-Coffee (Tree-based Consistency Objective Function forAlignment Evaluation)T-Coffee 是一种基于树的多序列比对工具，它利用树模型来提高序列比对的准确性。T-Coffee 可以在比对过程中推断树结构，并基于该结构进行多序列比对。它还可以结合其他序列比对算法，提供更高质量的比对结果。6. HMMER (Hidden Markov Model for Motif Discovery)HMMER 是专门用于蛋白质序列比对的工具。它基于隐马尔可夫模型，可以进行精确的序列比对和蛋白质结构域预测。HMIMER提供了丰富的功能和选项，适用于广泛的生物信息学研究。 二、除MEGA以外还有什么构建系统树的软件？1.RAxML：应用较多的系统发育树构建软件之一。2.MrBayes：贝叶斯推断法建树软件。3.PAUP：最大似然法和最大简约法建树软件。4.PHYLIP：提供最大似然法、最大简约法和距离法建树。5.CLUSTALX和PHYLO-WIN(LINUX)：其他辅助构建系统发育树的软件工具。三、构建进化树的意义？1.研究生物进化过程：进化树可以帮助我们理解从单细胞有机体到多细胞有机体的生物进化过程，揭示生物多样性的起源和发展。12.估计分歧时间：通过进化树，我们可以粗略估计现存的各类种属生物的分歧时间，即它们各自从最近的共同祖先分化出来的大致时间。3.测试和修正分类系统：系统发育分析可以用来测试现有的生物分类系统，确定哪些分类与进化历史一致，哪些需要修改。这有助于我们建立一个更加符合进化事实的生物分类体系。24.确定亲缘关系：进化树能够揭示物种之间的亲缘关系，例如，如果某几个物种在同一分支上，说明他们有着较近的亲缘关系，更有可能他们之间存在着祖先与进化的关系。5.分子水平研究物种进化：通过蛋白质的分子进化树分析，可以为从分子水平研究物种进化提供新的手段，可以比较精确的确定某物种的进化地位。 小组成员：任倍佳张钰洁陈瑞卿陈青青柳国蓉