第四组|科研菜鸟——核酸序列知多少(上)

1%

<p class="ql-block">第四组分工:</p><p class="ql-block">1、2:焦祎 3:曾绍杰 4:郑熙羽 5:隋卓楠 6:邹用科</p> <p class="ql-block"><span style="font-size: 20px; color: rgb(255, 102, 81);">1、讲述核酸序列分析的主要内容及意义。</span></p> <p class="ql-block">(1)意义</p> <p class="ql-block">针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。细胞中的核酸有两大类——DNA和RNA,前者携带者决定个体性状的遗传信息,后者参与遗传信息的表达与调控,他们在生命活动中起着重要的作用。ACGT(U)4种核苷酸是构成各种生物体核酸序列的基本组分,不同的排列顺序,蕴含着不同的生物信息。核酸序列中包含着生物的遗传信息和进化信息,从海量的已经测序的核酸序列中获取和挖掘信息是生物信息学的研究目的,<span style="color: rgb(71, 128, 244);">序列分析</span>是重要的途径之一,也是对核酸序列进行生物信息学分析的首要步骤。</p> <p class="ql-block">(2)主要内容</p> <p class="ql-block">①<span style="color: rgb(71, 128, 244);">重复序列分析</span></p> 对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。 <p class="ql-block">②<span style="color: rgb(71, 128, 244);">数据库搜索</span></p> 把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。 <p class="ql-block">③<span style="color: rgb(71, 128, 244);">编码区统计特性分析</span></p> 统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。 <p class="ql-block">④<span style="color: rgb(71, 128, 244);">启动子分析</span></p> 启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比较严重。总的来说,启动子仍是值得继续研究探索的难题。 <p class="ql-block">⑤<span style="color: rgb(71, 128, 244);">内含子 / 外显子剪接位点</span></p> 剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。 <p class="ql-block">⑥<span style="color: rgb(71, 128, 244);">翻译起始位点</span></p> 对于真核生物,如果已知转录起始点,并且没有内含子打断5'非翻译区的话,“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的存在,启动子定位不象在真核生物中起关键作用。对于原核生物,关键是核糖体结合点的定位,可以由多个程序提供解决方案。 <p class="ql-block">⑦<span style="color: rgb(71, 128, 244);">翻译终止信号</span></p> PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。 <p class="ql-block">⑧其它综合基因预测工具</p> 除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。 <p class="ql-block">⑨<span style="color: rgb(71, 128, 244);">tRNA 基因识别</span></p> tRNA基因识别比编码蛋白质的基因识别简单,目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。 <p class="ql-block"><span style="font-size: 20px; color: rgb(255, 102, 81);">2.简述Bioedit软件功能和使用说明。</span></p> <p class="ql-block">BioEdit是一个性能优良的免费的生物序列编辑器,可在Windows 中运行。它的基本功能是<span style="color: rgb(71, 128, 244);">提供蛋白质、核酸序列的编辑、排列、处理和分析</span>。此外,它还提供诸如<span style="color: rgb(71, 128, 244);">RNA比较分析、比对分析、进化分析、质粒作图</span>等功能。</p> <p class="ql-block">(1)下载地址</p> Window下载地址: http://www.softpedia.com/get/Science-CAD/BioEdit.shtml <p class="ql-block">(2)基本功能</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">①序列载入</span>。可以通过Files->Open(找到test.fa)实现将FASTA序列(蛋白,核酸均可)载入。</p> 下面是载入后的结果 <p class="ql-block"><span style="color: rgb(71, 128, 244);">②序列编辑(Edit)功能</span>。主要的功能如下菜单栏:</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Copy (Copy sequences)</span>:可以复制窗口中的任何一条序列或者选中的碱基或者氨基酸。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Paste (Paste Sequence(s))</span>:将复制的序列粘贴到窗口中。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Copy Sequences(s) to clipboard (Fasta formatted)</span>:可以复制从窗口中选中的序列到其他编辑软件如word, excel,editplus等等</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Copy Sequences(s) Vertically(tab-formated)</span>:可以以tab分割的格式复制窗口中选中的序列到其他编辑软件如word, excel,editplus等等</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">CutSequences(s)</span> :从窗口中剪切掉选中的多条序列。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Select to End</span>:选中到该序列的末端。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Select to Beginning</span>:选中到该序列的起始端。</p> 最下方还有选择的一些选项,大家都可以用! <p class="ql-block"><span style="color: rgb(71, 128, 244);">③Sequence菜单</span></p> 单击选中一条序列后,可以使用Sequence菜单下的Edit Sequence对该序列的任意位置进行编辑,并采用Apply进行保存。 <p class="ql-block"><span style="color: rgb(71, 128, 244);">Select Positions</span>:选择序列指定位置</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Extract Positions</span>:可以直接取出序列,并置于此文件下方</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Pairwise alignment</span>:可以进行两条序列比对及统计序列相似性。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Nucleic Acid核酸</span>操作选项,包括<span style="color: rgb(71, 128, 244);">碱基组成统计,获取反向互补序列,ORF寻找,翻译</span>等等。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Protein操作</span><span style="color: rgb(240, 240, 240);">选项</span>,包括<span style="color: rgb(71, 128, 244);">氨基酸组成统计</span>等选项。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Dotplot</span>:两条序列相似性点图。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">④Accessory Application菜单</span></p> ClustalW Multiplealignment:可以实现ClustalW多序列比对 出现下面结果: 其中各按钮含义: <p class="ql-block"><span style="color: rgb(71, 128, 244);">BLAST</span>:可以进行本地BLAST。先创建数据库(Create a local xx database file),然后比对。(数据库选择all_gene.fa,需要比对序列选择candidate.fa)</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">CAP contig assembly program</span>:可以对多条核酸序列进行组装(以测序Read组装为例,文件gene.fa)。</p> 更多信息参见中文版说明书: https://wenku.baidu.com/view/72426a2c7375a417866f8f73.html <p class="ql-block" style="text-align: justify;"><span style="color: rgb(255, 102, 81); font-size: 20px;">3.如何解读测序峰图?</span></p> <p class="ql-block">(1)<span style="color: rgb(240, 240, 240);">了解峰图的基本构成</span>:</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">X轴</span>:表示测序反应进行的时间或反应中荧光信号检测的顺序。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">Y轴</span>:表示<span style="color: rgb(71, 128, 244);">荧光信号的强度</span>。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">峰</span>:代表核苷酸(A、T、C、G)的荧光信号。每个峰对应一个<span style="color: rgb(71, 128, 244);">碱基</span>。</p> <p class="ql-block">(2)识别碱基:</p> <p class="ql-block">峰图通常会有一个颜色编码系统,<span style="color: rgb(71, 128, 244);">不同的颜色代表不同的碱基</span>。(例如,A可以是绿色,T可以是红色,C可以是蓝色,G可以是黑色)。</p> <p class="ql-block">(3)评估峰的质量:</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">峰的高度</span>:理想情况下,所有峰的高度应该相似,表示测序过程中荧光信号的一致性。如果某些峰特别高或低,可能表明该位置的质量有问题。</p> <p class="ql-block">(4)峰的形状:</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">尖锐的峰</span>:通常表示碱基识别的置信度高。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">平坦或宽的峰</span>:可能表明在该位置存在混合的碱基,或者该位置的质量较差。</p> <p class="ql-block"><span style="color: rgb(71, 128, 244);">基线</span>:基线应该是平稳的,如果基线波动较大,可能表明存在背景噪音或测序反应的问题。</p> <p class="ql-block">(5)查看序列质量评分:</p> 许多峰图分析软件会提供每个碱基的质量评分,通常以Phred分数表示。 Phred分数越高(通常用数字0-40表示),碱基识别的置信度越高。 <p class="ql-block">(6)检查峰图的整体质量:</p> <p class="ql-block">查看是否有明显的<span style="color: rgb(71, 128, 244);">信号丢失</span>或<span style="color: rgb(71, 128, 244);">异常波动</span>。</p> <p class="ql-block">检查<span style="color: rgb(71, 128, 244);">峰的形状</span>和<span style="color: rgb(71, 128, 244);">基线</span>在整个序列中是否一致。</p> 同时,使用专门的峰图分析软件(如Chromas, Geneious, Lasergene等)可以更准确地识别碱基,评估序列质量,并提供进一步的数据分析工具。 <p class="ql-block"><span style="font-size: 20px; color: rgb(255, 102, 81);">4、简介引物设计要点及用primer premier 5进行引物设计步骤。</span></p> <p class="ql-block">(1)引物设计要点:</p> <p class="ql-block">①引物与模板的序列要<span style="color: rgb(71, 128, 244);">紧密互补</span>;</p> <p class="ql-block">②引物与引物之间<span style="color: rgb(71, 128, 244);">避免形成稳定的二聚体或发夹结构</span>;</p> <p class="ql-block">③引物不能在模板的非目的位点引发 DNA 聚合反应(即<span style="color: rgb(71, 128, 244);">错配</span>);</p> <p class="ql-block">④引物长度在<span style="color: rgb(71, 128, 244);">20-30个</span>;</p> <p class="ql-block">⑤最后一个引物最好<span style="color: rgb(71, 128, 244);">不是T</span>。</p> <p class="ql-block">(2)Primer premier 5进行引物设计:</p> <p class="ql-block"><span style="color: rgb(240, 240, 240);">①在NCBI中查找序列:</span></p> <p class="ql-block"><span style="color: rgb(240, 240, 240);">②找到mRNA序列并打开:</span></p> <p class="ql-block"><span style="color: rgb(240, 240, 240);">③下滑,点击CDS并复制选中字母(褐色部分):</span></p> <p class="ql-block"><span style="color: rgb(240, 240, 240);">④打开primer premier 5,按如下选项选择,并点击:</span></p> <p class="ql-block">⑤粘贴复制的序列:</p> <p class="ql-block">⑥依次点击Primer-srarch,输入合适的参数,点击OK:</p>