FASTQ 格式是一种用于存储生物序列(主要是核酸序列)及其测序质量分数的基于文本的格式。其中,序列和质量分数都是用单个ASCII码字符编码的。 最初,FASTQ格式是由Sanger研究所开发出来捆绑FASTA 序列及其质量数据的,现在它已经成为高通量测序仪输出序列的标准格式。 一个Fastq文件中每个序列通常由四行组成:
第一行以“@”开头,后面接序列的标识符和可选的描述信息; 第二行是测序的序列;
第三行以“+”开头,后面可接相同于第一行的序列的描述信息;
第四行是每个碱基的测序质量分数,质量分数用相应数值的ASCII码表示。 3 如何制定基因组测序策略、有哪些考虑因素
基因组测序的策略:①全基因组鸟枪法:首先进行全基因组鸟枪法测序,再以基因组图的分子标记为起点,将鸟枪法DNA片段进行组装。根据高密度的基因组图分子标记,检测组装片段是否处在正确的位置,校正因重复顺序的干扰产生的序列误排。这是一种由下至上的测序策略。优点是速度快,简单易行,成本较低,可以在较短的时间内通过集中机器和人力的方法获得大量的基因片断;但是用它来测序,最终排序结果的拼接组装比较困难,尤其在部分重复序列较高的地方难度较大。此外有许多序列片段难以定位在确切的染色体上,成为游离片断;同时又会有许多地方由于没有足够的覆盖率而形成空缺。这些缺陷最终导致整个基因图会留下大量的缺口(gap),也影响其准确度;②克隆重叠群法:克隆重叠群:相互间存在重叠顺序的一组克隆。根据重叠顺序的相对位置将各个克隆首尾连接,覆盖的物理长度可达百万级碱基对。在单个的重叠群中,采用鸟枪法测序,然后在重叠群内进行组装。这是一种由上至下的测序策略。
制定选择测序策略所考虑因素见下图:
八 组装算法
1 组装算法主要包括哪两类?各自对应的常用的软件是什么? OLC(Hamilton 路径算法):软件有Celera Assember, Archne, PCAP; DBG(Euler 路径类算法):SOAPdenovo,Abyss,Velvet,SSAKE,Euler。
2 OLC与DBG算法各有什么优缺点?
组装算法有Overlap-layoutconsensus(OLC) 和 de Bruijn Graph (DBG) 两种。二者都是基于图论的算法。OLC 主要是针对第一代测序技术(Sanger 法)产生的, 用于较大基因组的组装, 它直接利用 Reads 之间的重叠序列建立公共路径以解决拼装问题。而 DBG 算法是针对二代高通量测序技术产生的片段, 将短的 Reads 转化成定长的 k-mer, 然后寻找 k-mer 之间的重叠关系,通过建立 de Brujin Graph, 把碱基序列拼接问题转为图论问题。
OLC算法在测序目标序列较短,序列复杂度不高的情况下有不少成功的例子,但没有针对repeat问题引入专门的方法或者额外的信息;OLC算法实际上是在图中寻找一条使得评价函数值最优的Hamilton路径,这是一个NP完全问题,一般都采用greedy-merging的算法近似求解,由于这种局部贪心算法,其明显的局部特性忽略了reads间“长距离”或者整体性的联系,从而导致了拼接错误,即拼接结果和真实的DNA原始序列不同。
DBG算法采用hash寻址的方法,找到每个节点的时间是常数,并不会随着测序深度的不同而变化,降低了时间开销。与OLC算法,这种算法不需要做reads之间的两两比对,也不需要做重叠图,同样大量节约了计算代价;EULER采用的算法过于独立,很难利用其他辅助生物信息,导致其实用性和流行性大打折扣。
3 为什么重复序列影响基因组拼接?
基因组中重复片段大量存在,由于读取片段reads长度过短,一般只有几十个碱基,这使得重复序列的处理变得困难。重复序列的存在将会产生大量的错误的重叠,最终导致结果的严重偏差。(来源:International Human Genome Sequencing Consortium. Initial Sequencing and Analysis of the Human Genome[J]. Nature, 2001,409(6822): 860-921.)
九 基因组注释
1 什么是基因组注释
基因组注释是指从基因组原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
2 GC含量与CpG岛
GC含量是在所研究的对象的全基因组中,鸟嘌呤和胞嘧啶所占的比例。一种生物的基因组或特定DNA、RNA片段有特定的GC含量。
CpG岛(CpG islands)是指DNA上一个区域,此区域含有大量相联的胞嘧啶(C)、鸟嘌呤(G),以及使两者相连的磷酸酯键(p)。满足CpG岛的条件为: ①连续500 bp的DNA顺序; ②C+G含量大于55%; ③ 观测到的CpG双碱基数目与预期的数目比大于0.65.
3 真核生物基因组主要哪5类重复序列
散在重复序列;假基因;简单重复序列;重复片段;串联重复序列
1 ). Interspersed repeats 散在重复序列:占人类基因组的~45%,包括 LINE 、SINE 、DNA转座子、LTR 逆转座子;
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库2014-基因组学 - 最终版 - 图文(3)在线全文阅读。
相关推荐: