基因组学分析

来源：网络收集时间：2018-10-20 下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:或QQ：处理（尽可能给您提供完整文档），感谢您的支持与谅解。

第八章基因组学分析

基因组（Genome）指一个生物体中所有的遗传信息的载体DNA。原核生物基因组与真核生物基因组有着很大的区别，原核生物的基因组比较简单，一般由一条染色体（有些细菌有多条染色体）和若干个质粒组成。除少数细菌外，细菌的染色体一般由一条环状双链DNA组成。染色体高度折叠、盘绕聚集在一起，形成致密的类核 (nucleoid)，类核无核膜与胞浆分开，类核的中央部分由RNA和支架蛋白组成，外围是双链闭环的DNA超螺旋（图8-1）。染色体DNA链上与DNA复制、转录有关的信号区域优先与细胞膜结合，连接点的数量随细菌生长状况和不同生活周期而异。这种连接有助于细胞膜对染色体的固定，并在细胞分裂时将染色体均匀的分配到子代细胞中。

图8-1：大肠杆菌染色体DNA的类核结构，中间实心圆为中央类核，四周的为DNA环。

从1995年美国基因组研究所（The Institute for Genomic Research, TIGR）发表第一株细菌——流感嗜血杆菌（Haemophilus influenzae RD）的全基因组序列以来，现已发表了150多株细菌的基因组全序列(表8-1)，其中包括古细菌和真细菌，既有病源微生物也有非病源微生物。这些已完成全基因组测序的细菌很具代表性，有在极端条件下生长的嗜热菌，耐盐菌，耐酸菌；有厌氧菌，兼性厌氧菌和需氧菌；有营养要求不高的大肠杆菌，较难培养的枝原体，只在活细胞内生存的衣原体和立克次体。在未来的几年时间里，还将有更多株原核生物的基因组全序列被测序，预示着原核生物基因组研究将对21世纪的生命科学研究中起着推波助澜的作用。

第一节微生物基因组概述

1、基因组大小

曾经有很多方法用于细菌基因组大小的研究，包括比色法、DNA复性动力学、酶切片段的二维胶电泳，这些方法现在都已经被脉冲场电泳（Pulsed Field Gel Electrophoresis, PFGE）技术所取代。虽然原核生物的基因组大小相对比真核生物要小，但是最大的原核生物基因组碱基数与最小的真核生物基因组碱基数大小有部分重叠（图8-2）。细菌的基因组大小相差也很大，目前已知完成全基因组序列测定的细菌中，基因组最小的生殖道支原体（Mycopalsma genitalium）只有0.58 Mb，最大的日本慢生根瘤菌（Bradyrhizobium japonicum USDA 110）有9.11 Mb（表8-1）。 2、编码密度高

与真核生物不同，原核生物基因组的编码序列占基因组总序列的比率很高，达90％左右。如果基因的

平均大小为1 kb，在一个基因组大小为1000 kb的原核生物，基因数接近900个，上下偏差一般不会超过20％，如基因组最小的生殖道枝原体（Mycoplasma genitalium G-37B0），其基因组大小为580 kb，编码523个基因，基因组中等大小的李斯德菌（Listeria innocua Clip11262）和根瘤土壤杆菌（Agrobacterium tumefaciens C58-DuPont），它们基因组的大小分别为3011 kb和4915 kb，编码3626和5482个基因，基因组较大的Mesorhizobium loti MAFF303099，基因组大小为7036 kb，编码6752个基因。两个已全基因组测序的低等真核生物，酿酒酵母（Saccharomyces cerevisiae）和裂殖酵母（Schizosaccharomyces pombe），基因组大小分别为12069和14000 kb，编码6294和4820个基因，编码序列只占基因组的57％和70％；秀丽隐杆线虫（Caenorhabditis elegans）和拟南芥（Arabidopsis thaliana）的基因组大小分别为97000和115428 kb，编码19099和25498个基因，拟南芥的编码区（CDS）的平均大小为 430 bp，编码序列占基因组的28.9％(29)。而人类的基因组有3000000 kb，仅编码31000多个基因，编码序列（编码外显子的序列）占基因组的比率不到2％。由此可见，不同生物，不但基因组大小差异显著，而且编码序列占总基因组的比率相差也非常悬殊。

古细菌真细菌真核生物10510610710810910101110

图8-2 古细菌、真细菌和真核生物这三界生物基因组大小分布图。古细菌和真细菌的基因组大小是根据PFGE数据，真核生物的基因组大小是根据PFGE和复性动力学实验两个结果。

3、基因组拓扑结构

约50种细菌的基因组拓扑结构是已知的，比较常见的是一个或多个封闭的环状染色体，但是也有些关于线状染色体的报道。关于线性染色体在复制阶段是否有一个环化过程，目前还不太清楚，但是已知有些细菌的染色体在复制时改变其拓扑结构。细菌基因组中比较多见的是一条环状染色体，关于有些细菌中存在多个染色体的报道很多，大家可能认为染色体越多基因组越大，其实基因组的大小与是否存在多个染色体没有什么直接关联。如基因组大小为9.4 Mb（Megabase，百万碱基对）的Myxococcus xanthus就只有一条环状染色体。多条染色体的存在，其实反应了细菌基因组的流动性特点。细菌基因组的同源重组频率很高，同源重组既能使染色体由一条分成多条，也可以使多条染色体重组合并成一条大的染色体。如Bacillus cereus的基因组大小基本在5 Mb，但是比较不同菌株的物理图谱发现，基因组的大部分经常会发生重排。在其中一种中，最大的染色体是2.4 Mb，另外的2.6 Mb分散成多个染色体。 4、原噬菌体（Prophages）和隐性原噬菌体（Cryptic Prophages）

噬菌体又称细菌病毒，是一种完全的细胞内寄生生活，利用宿主的生物合成系统在细菌体内繁殖。噬菌体分为温和噬菌体和烈性噬菌体，一些噬菌体的DNA可以通过位点特异性重组或转座作用插入到细菌染色体上，称为溶源生长。在溶源生长时期噬菌体的病毒功能被抑制，这时噬菌体又称为原噬菌体（Prophage），噬菌体的基因组随着细菌的染色体一起复制、遗传到下一代。由于在生长过程中，溶源菌的经常发生突变或原噬菌体部分缺失，导致溶菌生长的一些功能基因丧失，这时原噬菌体称为隐性原噬菌体（Cryptic Prophages）。从自然界分离的细菌也经常有原噬菌体，这些原噬菌体作为细菌基因组的一部分组成而存在，有时也难以发现它们的病毒起源性。

基因组大小(bp)

图8-3：大肠杆菌O157:H7 Sakai株、O157:H7 EDL933株、K-12株、CFT03株（由里到外）中的原噬菌体分布图及同源性比较。圆环表示各株菌染色体基因组，小方框表示那部分为原噬菌体，连线表示不同菌株间具有同源性的原噬菌体。

在病原细菌的基因组中，存在着众多的原噬菌体DNA，许多原噬菌体编码着细菌毒力因子。原噬菌体编码的各种细菌毒力因子：胞外毒素蛋白、侵袭素、粘附素、三型分泌系统的效应蛋白、血清抗性、宿主适应必需的酶类。如大肠杆菌O157 一种肠出血性(enterohemorrhagic)细菌，对人强毒。在由由非致病性大肠杆菌进化成O157的过程中，后者积累了24个原噬菌体（图8-3），编码着许多重要毒力因子：LEE III型分泌系统，Shiga 毒素，SOD酶，溶血素，血清抗性。

5、插入序列（Insertion Sequence，IS）和转座子（Transposons）

插入序列在是在1968年，大肠杆菌的半乳糖酶操纵元基因表达的分子遗传学研究中发现的。随着越来越多的细菌的全基因组序列测定，被鉴定插入序列的种类也越来越多，插入序列不仅是细菌基因组的构成组分，也存在与质粒和原噬菌体中。这些可移动元件可以从基因组的一个位点转移到另一个位点，促进了基因组的重排、改变了基因的表达，同时使基因组以一个不停改变的动态状态存在。

不同的插入序列大小不等，在0.7～7 bp之间，比较常见的一般在1～1.5 kb之间。插入序列的两端一般是两个短的方向中方序列（图8-4），这两个重复序列只是具有同源性而不是完全一样，大小在9～41 bp不等，对于插入序列的转座是非常重要的。插入序列只编码转座所需的蛋白。已经在很多细菌的染色体鉴定出插入序列，在大多数细菌中一般至少有5到8个拷贝，在不同的细菌中插入序列的拷贝数相差很大，同一个插入序列在某一个细菌中可能只有1个拷贝，但是在另一种细菌中可能有上百个拷贝。

转座子是一种比较复杂的可移动遗传元件，转座子除编码转座功能所需的蛋白外，还编码会导致显著表型改变的功能蛋白，如抵抗药物的功能蛋白。转座子的转座机制可分为三种：复制转座、非复制转座、保守转座。对于复制和非复制转座，在交叉打断靶DNA生成粘末端，转座子先与突出的单链连接，然后通过复制修复填补缺口。这解释了为什么会复制靶DNA产生重复。复制转座是先复制一个新的转座子，然后插入到靶DNA区段，原来的转座子并没有移动。非复制转座时，先将转座子从染色体上剪切下来后，

再插入靶DNA区域，复制修复填补缺口。保守转座也是一种非复制转座，但是在转座过程中不需要任何DNA合成。

IS转座酶图8-4 插入序列结构示意图。

6、DNA链组成的不对称性

6.1 GC偏斜（GC skew）

Lobry于1996年通过对3种原核生物基因组：大肠杆菌（Escherichia coli）、枯草芽孢杆菌（Bacillus subtilis ）和流感嗜血杆菌（Haemophilus influenzae ）的分析，发现它们DNA链不同区域的碱基组

成非对称，前导链含有较多的G而后随链含有较多的C（GC skew）。GC skew的计算公式为（nG-nC）/（nG+nC），其中nG(nC)为一特定大小DNA片段（窗口）内G或C的含量，窗口的大小一般设为10 kb，20 kb 或50 kb。对于大多数原核生物来说，它们先导链的G都多于C，(nG-nC)/(nG+nC)为正值，而后随链的G少于C，(nG-nC)/(nG+nC)为负值（8-5）。所以，在复制的终点和起点，会发生(nG-nC)/(nG+nC)的正负值之间转变。当以基因组的长度为横坐标，GC skew为纵坐标作图时，起点在负值向正值转变处，接近或相当于0的位置；而终点在正值向负值转变处，同样接近或相当于0的位置。GC skew在大多数原核生物如大肠杆菌、枯草芽孢杆菌、生殖道枝原体（Mycoplasma genitalium）、沙眼衣原体（Chlamydia trachomatis）、结核分枝杆菌（Mycobacterium tuberculosis）、梅毒螺旋体（Treponema pallidum）、普氏立克次体（Rickettsia prowazekii）、流感嗜血杆菌、肺炎枝原体（Mycoplasma pneumoniae）和幽门螺杆菌（Helicobacter pylori ）等中存在，并可据此对这些真细菌的单一复制起点和终点进行定位。而在已测序的11种（株）古细菌中，通过GC skew 预测存在单一复制起点的只有嗜酸热原体（Thermoplasma acidophilum）。另外，硫磺矿硫化叶菌（Sulfolobus solfataricus）也籍此预测了一个复制起点（其可能有多个复制起点）；但其它古细菌如加氏甲烷球菌（Methanococcus jannaschii）、热自养甲烷杆菌（Methanococcus thermoautotrophicum）、发光古球菌( Archaeoglobus fulgidus)和火球菌（Pyrococcus horikoshii）等没有明显的链内GC skew，可能有多个复制起点，不能用此法进行复制起点定位。

Thermoanaerobactertengcongensis MB4T

图8-5：左图为腾冲嗜热厌氧菌的基因组GC偏斜图，右图为三株鼠疫耶尔森氏菌的染色体基因组GC偏斜图（由外向内分别为CO92、91001、KIM）。

DNA链碱基组成的非对称性也可以用于基因组为线性染色体的莱姆病病原体－伯氏疏螺旋体（Borrelia burgdorferi ）复制起点的分析。线性染色体的复制可以是从一端开始，也可能从中间开始

向两端复制。通过GC skew分析，预测伯氏疏螺旋体复制起点在染色体中部的450 kb处，后经实验得到证实。某些大病毒的基因组也存在碱基组成的非对称性。对10个人疱疹病毒基因组GC分布研究结果表明，HHV6、HHV7和HCMV存在GC skew。GC skew还存在于叶绿体基因组和质粒DNA。

在GC skew 的基础上，Grigoriev建立了一种累计skew （cumulative skew）的方法。这种方法是从 DNA序列的任一位置开始，计算(nG-nC)/(nG+nC)，并依次把相邻的(nG-nC)/(nG+nC)累计相加，最大值在复制终点，最小值在复制起点。它的优点是适用于一些GC skew 不太明显的微生物，如肺炎支原体的基因组序列，用一般的GC skew 作图很难观察(nG-nC)/(nG+nC)正负值的转变点，但用累计(nG-nC)/(nG+nC)就很容易看出；另外，累计(nG-nC)/(nG+nC)的图形是一条”V”形的曲线，并非一般 GC skew的为一上下波动的曲线，故而更直观。 6.2 基因方向的偏好

基因方向性偏好在原核生物（除多个复制起点的古细菌无法判断外）是一种普遍现象。在现已完成全基因组测序的真细菌和古细菌中，前导链上编码的基因全部超过50%，最高的为腾冲嗜热菌，达86.7 %。不过，现在已知的基因分布最偏的还是硕大利什曼原虫（Leishmania major Friedlin ）的1号染色体，它的79个基因中有29个分布于近左端粒的79 kb范围内，而另外50个基因分布在相邻的180 kb 范围内的互补链上。这种基因方向的偏好的一种可能解释是，细菌的基因组在转录的同时就开始合成合成蛋白，因此在RNA链上同时存在蛋白合成复合体和转录复合体，基因都在前导链时，两者的移动方向是一致的，不会发生碰撞，有利于细菌的快速繁殖的需要。

由于分析基因组前导链和后随链的碱基分布，密码子使用及基因方向性偏好的前提是能够通过GC skew 等方法判定基因组的复制起点和终点。对于多复制起点的原核生物如蓝细菌（Synechocystis sp ）和前述的古细菌加氏甲烷球菌等，目前还不能准确判断复制起点，用GC-skew 无法分析它们DNA链组成的非对称性。同样，T4噬菌体基因组，某些真核生物染色体或染色体的一些区段，如整个酵母基因组，线虫基因组，果蝇染色体及人T细胞受体β位点（7号染色体上的670kb）等也未见碱基分布的非对称性。 7、重排

在细菌中除一些操纵元外，不同细菌间基因的顺序没有一定的规律，如有些直系同源基因（Homologous Genes）同时存在于大肠杆菌（Escherichia coli）、流感嗜血杆菌（Haemophilus influenzae）和幽门螺杆菌（Helicobacter pylori）中，但是它们在三个基因组中的位置截然不同，这种基因位置的无序性主要是由于基因组内的重排引起的。虽然细菌的基因组结构非常紧密，编码区占90％以上，不像真核生物有很多重复序列，但是细菌基因组中存在一些可移动元件（Transpons），这些可移动元件是基因组的稳定性大大降低。同时细菌中还存在一些低拷贝数的重复序列，象rRNA、tRNA，另外在某些细菌中还存在高拷贝数的插入序列，通过这些重复序列的介导的同源重组也增加了细菌基因组的不稳定性。因此，细菌的基因组是一个动态的状态存在，不停的发生着基因组内的重排。这种基因组内频繁的重排，不仅常见于不同物种之间（Bordtetella）,而且还多见于一些基因组内存在较多插入序列的种内之间（Yersinia）（图8-6）。四原核生物基因组的GC含量

原核生物基因组的GC含量相差悬殊,对150多种（株）已完成全基因组测序的原核生物基因组GC含量统计结果表明，最低的Wigglesworthia glossinidia只有22%左右,最高的Streptomyces coelicolor达72%,有近65% (100/154)原核生物基因组的GC含量低于50%。虽然GC含量最高的嗜盐古细菌(Halobacterium sp NRC-1)达到68.6%,但古细菌的GC含量未见偏态分布,散布于31.0% 至69.0% 的范围内；经分析发现12株嗜热菌(OGT范围为59-103℃)的嗜热性与基因组的GC含量也不相关(R=0.1),并非最适生长温度越高，基因组的GC含量也随着增高。OGT 较低的嗜酸热原体（Thermoplasma acidophilum）(59℃) 和火山热原体（Thermoplasma volcanium）(60℃)的基因组GC含量分别为46.0%和39.9%；OGT较高的火球菌（Pyrococcus horikoshii，98℃和Pyrococcus abyssi，103℃）的基因组GC含量分别为41.9%和44.7%；GC含量最低的加氏甲烷球菌（M. jannaschii，31.4%）的OGT为85℃，GC含量最高的敏捷好氧炽热球菌（Aeropyrum pernix，56.3%）的OGT也只有95℃。

图8-6 用ACT（Artemis Comparison Tool）软件所作的Yersinia pestis CO92、KIM和91001染色体DNA的线性比较图，连线之间的部分表示在两个基因组中同源性大于99％。

虽然嗜热菌的嗜热性(OGT为59-103℃)与它们基因组的GC含量无关(R=0.1)，但OGT与rDNA、tDNA的GC含量高度相关(R分别为0.92和0.90)。嗜热菌的rDNA的GC含量为52.8%-67.7%，tDNA的GC含量为60.2-72.6%，较前者高。此外，嗜温菌基因组的GC含量与rDNA，tDNA的GC含量相关(R分别为0.88和0.80)。36株全基因组测序的不同菌种的原核生物分析结果显示，它们的基因组GC含量为25.5-67.9%，rDNA的GC含量为45.4-58.1%，tDNA的GC含量为49.3-62.4%；在上述所有36株不同菌种原核生物中，当基因组GC含量低于57.0%时，tDNA的GC含量最高，rDNA的次之，基因组GC含量最低；当基因组GC含量大于59.0%时，基因组GC含量最高，tDNA的GC含量次之，rDNA的最低；只有一株麻风分枝杆菌(Mycobacterium leprae)例外，其基因组GC含量介于57.0-59.0%之间，为57.8%，tDNA的GC含量(61.6%)高于基因组GC含量，rDNA含量最小（55.7%）。不管怎样，tDNA的GC含量总是高于rDNA的GC含量。

真核生物基因组的GC含量相差也较大，疟原虫（Plasmodium falciparum 3D7 Chromosome 3）只有22％，而人类基因组GC含量可达40％左右。而且人类基因组不同区段DNA的GC含量相差悬殊，以20kb大小为一窗口，对人类基因组全序列进行扫描，结果发现不同区段DNA的GC含量在31－65％之间。

第二节：全基因组鸟枪法测序(Whole genome shotgun sequencing)

鸟枪法测序分为两种：1、分级鸟枪法测序（hierarchical shotgun sequencing）（图8-7）；2、全基因组鸟枪法测序。分级鸟枪法测序又称BAC-to-BAC测序，先用物理方法将基因组DNA打断成长的DNA片段（100～200 kb）构建一级BAC文库。然后对BAC克隆进行定位、拼接，主要是通过BAC克隆的末端测序，获得交叉重叠覆盖全基因组的BAC文库克隆。再对每个BAC克隆构建二级鸟枪法文库，大规模测序、拼接。这种策略简化了拼接工作，但是构建BAC克隆重叠群时工作量较大，如果有精细、准确的遗传图谱的话，相对来说要容易一些。后者对于拼接来说难度和工作量较大，由于重复序列的存在容易导致错拼，但是速度快。不需要事先了解基因组的信息，可以在没有任何遗传或物理图谱的情况下进行。20世纪90年代早期，关于全基因组鸟枪法测序的行性有很大争议，很多分子生物学家认为，比较所有短的序列和鉴

定重叠区的信息处理量，即使是对于最小的基因组，已当时的计算机系统也不可能胜任。但是1995年嗜血流感菌全基因组序列的发表结束了这场辩论(25)。由于微生物的基因组复杂度相当于真核生物来说要简单，并且随着计算机技术的发展运算速度的加快，使全基因组鸟枪法测序的拼接工作的难度也逐渐降低，因此目前完成细菌全基因组测序，基本都是采用全基因组鸟枪法测序。

一、基因组DNA提取

1.1用接种环从冻存管中划取细菌少许，划线接种于新鲜的LB固体平皿，24小时后从LB固体培养基中挑取单克隆菌落，接种于含有150mL的LB液体培养基的三角烧瓶中, 37℃振荡培养24h。从三角烧瓶中取10ml培养液转接到加有250ml的LB液体培养基的三角烧瓶中, 37℃振荡培养24h。将细菌培养液转移入250mL离心管中，7000rpm离心8min，弃上清集菌。

1.2 加入将5～10ml（可根据菌量的多少加以调整）的SE缓冲液，加入10mL的10％SDS（每克菌加SDS 0.2g），充分混匀，65℃水浴5～10min，使成粘稠清亮裂解液。加入等体积的饱和苯酚：氯仿（1:1）混合液，充分振荡混匀，10000rpm离心10min，将上清转移至另一离心管，加等体积的氯仿，充分混匀，10000rpm离心10min；根据残留蛋白的量，可重复抽提一次。

1.3 将上清转移至另一离心管中，加RNA酶至终浓度为50～100μg/Ml，37℃下作用1h。加入等体积的氯仿，充分混匀，10000rpm离心10min，取上清于无菌烧杯中. 沿烧杯壁缓慢加入两倍体积的冷无水酒精，用无菌玻棒搅拌，绕出DNA。用75%的乙醇润洗玻棒上的DNA，晾干DNA，溶于2ml的TE（pH8.0）中，用紫外分光光度计（Beckman DU600）测定DNA吸光度值，确定DNA的浓度。

分级鸟枪法测序基因组DNABAC文库BAC克隆定位、组装成大的重叠群BAC克隆测序鸟枪法克隆测序克隆的序列拼接

图8-7：分级鸟枪法克隆测序流程示意图。1、基因组DNA打断（Sonication，Geneshear，Enzyme）成大片断DNA（100～200 kb），连接到BAC载体构建BAC文库。2、BAC克隆定位、组装，获得覆盖全基因组的BAC克隆。3、对各个BAC克隆进行鸟枪法测序，构建各个BAC克隆的鸟枪法文库，然后大规模测序。4、各个BAC克隆分别拼接，直至获得BAC克隆中插入片段的全长。将BAC克隆按定位的顺利组

装得到完成图。

二、文库构建

2.1 超声法构建全基因组鸟枪文库超声破碎基因组DNA：

1、取4-5ug DNA 入 1.5ml Epperdorf管中，共4支；

2、 4管DNA分别超声4秒、8秒、14秒、20秒（其中8、14、20秒分多个相同时间段进行，间歇时间为10秒，超声时应将变幅杆居中并伸入液面3mm）；

3、各取10ul 加入2ul 6×loading buffer，上样电泳（1%琼脂糖凝胶），至溴芬蓝泳动7cm时拍照，观察

超声效果，8、14秒超声管的DNA片断量应以1.6-3.0kb处最多，而超声时间4、20秒的DNA片段量应以分别在4-10kb和1-1.6kb处最多；

4、根据电泳结果，对个别超声效果欠佳的样品要再次超声，具体时间应根据实际效果而定；破碎DNA片段纯化：

5、每管加1/10体积的3M醋酸钠和2倍体积预冷无水乙醇，-20℃放置30min； 6、离心：13000rpm，10min，弃上清； 7、各管加1ml 70% 乙醇，颠倒数次；

8、离心：13000rpm，5min，弃上清； 9、置室温15min以使酒精挥发干净

10、每管加20ul无菌纯水溶解DNA，收集四管中的样品于一管末端补平：

11、如下表所示，在DNA样品种一次添加下列各试剂

DNA H2O 10*Buffer dNTP(10mM)

80ul 3ul 10ul 2ul

T4Polymerase(5u/ul) 5ul Total 100ul

充分混匀，离心机甩一下； 12、置37℃水浴1小时；

13、从水浴取出后，加50ul酚/氯仿（等体积），充分混匀至乳白色离心：4℃，13000rpm离心15min

14、吸上清至另一干净离心管中，加200ul氯仿，充分混匀至乳白色

离心：4℃,13000rpm,10min（2-3分钟时停下，抽出氯仿，继续离心12min）

15、吸上清至另一干净离心管中，加20ul 6×loading buffer，离心机中甩一下，使样品集中于官底，4℃过夜；电泳切胶回收：

16、取4℃保存样品上样，50ul/孔

17、电泳60V；3hr（溴酚蓝距点样孔7cm）。

18、分别切下1.6～2.0 kb、2.0～2.5 kb及2.5～3.0 kb的DNA 片段，反向（大片段的一边靠前）放入二次回收胶的加样孔中。（二次回收胶0.5%低熔点琼脂糖凝胶） 19、电泳150V，2hr。

20、紫外灯下依次切取含DNA片段的胶，分别放入已做标记的1.5ml离心管中。 21、用QIAEXII GEL Extraction Kit 回收试剂盒从胶中回收DNA片段

a) 称取胶重，加入三倍体积buffer QXI（例如，100mg胶中加入300ul buffer QXI）

b) 50C 水浴数分钟，至胶完全融化。用手指弹 QIAEX II 使重悬，每管中加入5ul QIAEXII c) d) e) f)

50C 水浴10min，每隔2min 取出颠倒混匀数次，使QIAEX II 保持悬浮 4C，13000rpm，30sec。（弃上清，离心机中甩一下，吸取上清）加入500ul buffer QXI，弹管底使QIAEX II 重悬离心并去上清

g) 加入500ul buffer PE，重悬QIAEX II，离心30sec，去上清

h) 在加入500ul buffer PE，重悬QIAEX II，离心30sec，弃上清，离心机中甩一下，吸去上清 i)

超净台上吹干（至无酒精味），加入10ul elution buffer，重悬QIAEX II，静置5min，13000rpm，30sec。吸上清，冰浴。

22、取1ul上清上样电泳，同时做分子量标准（1kb ladder）及DNA含量标准（20ng，40ng）对照。 23、据电泳结果，取适量DNA进行连接连接：

24、在一0.5ml离心管中，依次加入下列物质

Insert (DNA 样品) xul (80-100ngDNA)

H2O Ligase buffer (10*)

(7-x)ul 1ul 1ul 1ul 10ul

Vector (30ng/ul) T4DNA ligase (3u/ul) Total

25、 14C连接过夜（12-16小时）

4℃，6000 rpm，8 min离心。

26、于-70 ℃冰箱内取感受态细胞置于冰上融化，用预冷好的灭菌水轻轻注入并吹打混匀(冰上操作)，27、吸取上清并弃之，取灭菌水补至所需体积(冰上操作)，混匀。 28、取2 μl 纯化后得质粒，加入100感受态细胞中，混匀(冰上)。 29、打开细胞导入仪，调至Manual，调电压为2.1KV。

30、将加有连接产物的菌液加入到0.1cm2的电击杯中, 进行电穿孔。

31、按一下pulse键，听到蜂鸣声后，向电击杯中迅速加入1000μl的SOC液体培养基，转移到1.5ml

的离心管中。

32、于70 rpm，37℃摇床，复苏45～60分钟，同时做阴性对照和阳性对照。

33、取30 μl菌液加入170 μl LB液体,共计200 μl涂在直径12cm的涂有X-Gal、IPTG、Amp+的平

板上, 37℃培养18小时左右。取出后，观察白/兰斑情况，并记录。

三、大规模培养、质粒提取、测序

1、在96深孔培养板中加入2 ml有氨苄抗性的LB液体培养基； 2、用牙签从平板上挑取生长良好的白色单克隆，接种至96孔板中；

3、 96孔板接种完后，按顺序从第一个接种的孔开始将牙签取出（快速，防止牙签吸附液体LB滴入其它

孔，导致交叉污染。）； 4、盖上盖子，37℃恒温摇床200rpm培养24小时；

5、 96孔平衡后，4℃，3000rpm收集细菌。检查菌落，已收集的细菌全部覆盖班底为宜，如细菌过少，会导致质粒量太少； 6、碱裂解法提取质粒

a) 加入150 ul溶液I，用振荡器振荡96孔板至细菌彻底悬浮；

b) c)

沿孔壁加入150 ul溶液II，迅速振荡混匀裂解细菌，这时溶液变得非常粘稠，静置5 min；加入150 ul溶液III，振荡混匀，出现乳白色悬浮物；

d) e) f) g) h)

3000 rpm离心10 min；

转移上清至阻碍式Millipore纯化板，真空抽虑；加入300 ul 75％乙醇洗涤；

室温凉干后加入50 ul无菌去离子水溶菌质粒；取5 ul电泳检测。

7、测序反应

a) ET（Pharmacia荧光测序试剂）1ul，引物 1ul（10 mml），质粒DNA 200 ng，用无菌去离子水

补充至10 ul；

b) 测序反应循环参数：95℃ 1 min，（95℃，15 Sec；50℃，15 Sec；60℃，2 min）35个循环； c) 反应结束后加入30 ul的95％乙醇和醋酸铵（30:1）振荡混匀，室温避光静置30 min； d) 4℃，3000 rpm离心40 min； e) 在吸水纸上倒扣96孔板，倒去上清；

f) 加入50 ul 75％乙醇，4℃，3000 rpm离心40 min；

g) 在吸水纸上倒扣96孔板，倒去上清；室温避光静置30 min； h) 加入载样缓冲液。 8、上测序仪电泳测序

四、序列拼接

1、碱基读取用Phred程序从峰图文件读取碱基，生成序列文件和质量文件，质量文件是根据峰图对每个碱基打分，分值越高碱基的质量就越高。去除低质量的和100 bp以下的序列。

2、去载体由于使用克隆载体上的通用引物测序，因此序列的末端可能会有一些载体的序列，这些序列会影响后面的拼接。用Crossmatch去除序列两端的载体序列。

3、拼接主要是根据序列两端的重叠区域进行拼接，构建克隆重叠群（Contig）。

五、完成图的绘制（Finishing）

在适当的时机结束大规模的鸟枪法测序，开始完成图的绘制，有利于项目的进度及经费节约。过早的结束大规模测序，由于Contig数目太多，缺口数目太多和总长度也太长，这样会影响项目的进程。随着测序数量的增加，Contig的数目会进入一个平台期，这是如果还继续进行大规模的鸟枪法测序，就显得太没有必要，导致经费浪费，也延迟了项目完成时间。开始进入完成图绘制，按Lander-Waterman理论(9)，如果大规模的鸟枪法测序的序列总长覆盖度达到基因组的5倍时，每个碱基没有测到的几率是0.67％。可以根据Contig数目的增减趋势来决定什么时候停止大规模鸟枪法测序开始完成图绘制，一般来说在鸟枪法测序的序列总长度在达到4倍的基因组覆盖率以前，随着序列的增加Contig的数目也随着增加，但是在达到2倍基因组覆盖率后，Contig的数目开始下降。当达到8倍基因组覆盖率时，Contig的数目不再减少基本进入平台期，这时可以开始绘制完成图。什么时候进入平台期，可以根据Lander-Waterman曲线来判断（图8-8）。

1、 Contig的错拼检查在进入完成图绘制之前，要确保每个Contig的正确性，否则会造成人力、时间、

经济的浪费。由于基因组中重复序列的存在，会影响拼接的正确性，如果在绘制完成图之间，没有发现这些错拼，那么这些错拼会通过级联发大，严重影响完成图的质量。Consed软件是一个可视化的图形界面，可以人为的对每个Contig的进行拼接检查，有些错拼是可以通过人工的发现。有时一个大的的Contig可能需要打断成两个或更多Contig，经过PCR验证没有错误后，再把它们拼接成一个大的的Contig。

2、低质量区的再测序有时一个Contig的内部可能存在一些低质量区域（主要是序列的两端），如果有克

隆覆盖低质量区域，可以把这些克隆提出来重新测序，提高一致序列的质量（Consensus sequence），确保每个碱基的正确性。

2200210020001900180017001600150014001300120011001000900800700600500400300200100123456克隆重叠群(Contig)的数目开始绘制完成图789鸟枪法序列的基因组覆盖度

图8-8全基因组鸟枪法测序拼接的Lander-Waterman曲线，横坐标为鸟枪法序列的基因组覆盖度，纵坐标为克隆重叠群的数目。实线为理论计算结果，方点为实践组装结果。在大规模测序起始介导，随着鸟枪法序列的增加，克隆重叠群的数目也增加，但是在将达到两倍的基因组覆盖率时，克隆重叠群的数目逐渐减少，在鸟枪法序列的基因组覆盖率达到9倍以后，克隆重叠群的数目基本恒定，进入平台期，这是可以结束大规模鸟枪法测序开始绘制完成图。在实际拼接时，由于文库的随机性，实际的曲线往往与理论曲线有所差异。文库的随机性不好的话，克隆重叠群的数目会提前进入平台期，有可能在6倍基因组覆盖率时就进入平台期。一般来说，在时间鸟枪法测序时，只要文库的随机性好，当达到8倍基因组覆盖率时基本可以开始完成图的绘制。

3、更大重叠群（Scaffold）的构建 Scaffold是指Contig之间的定位，主要是根据同一个克隆两端Reads（指每个测序反应所得的序列）的正反向信息，将Contig按一定顺序和反向连接起来。

4、缺口（Gap）填补 Scaffold构建完毕后，就开始填缺口。缺口分为两种：序列缺口和物理缺口，序列

缺口一般是指Scaffold内部Contig之间的缺口，已经有克隆覆盖了这些缺口，它们往往是由于那些难以测序的DNA区段（如高度重复区，或高GC含量区）、克隆的插入片段太长或因为测序质量不高而导致的缺口。这种缺口比较容易填补，一般通过对覆盖该缺口的克隆重新测序或用引物步行（Primer Walking）的办法可以填补。

物理缺口是指Scaffold之间的缺口，没有克隆覆盖，这些缺口往往是难以克隆的DNA区段。那些属于断裂热点或难以断裂的的DNA区段，在超声打碎时断裂成DNA片段往往太小或太大而不易克隆，所以在构建文库时可以采用几种不同的方法，增加文库的随机性和覆盖度。这种缺口的填补有两种方法：A、用不同的方法或载体构建另一套文库，然后用克隆重叠群的末端序列作为探针，筛选覆盖物理缺口的克隆，然后测序。B、根据克隆重叠群的末端序列设计PCR引物（Consed软件就有这项功能），然后将引物随机搭配扩增，如果能扩增出来，表示这两个克隆重叠群是相邻的，PCR产物纯化后测序即可填补缺口。

六、完成图的验证

全基因组鸟枪法测序的优点在于测序速度快，并且不需遗传或物理图谱。现在普遍认为，任何小于5 Mb的基因组序列，即使不知道其基因组的任何信息，都可以在一年内测完它的全部序列。虽然实践证明全基因组鸟枪法能相对较快的测定小基因组的序列，但是从起始序列寻找重叠区域和构建克隆重叠群的复杂性，仍需要做大量的数据分析，如果没有巨型计算机的海量数据运算能力支持也很难实现。

由于细菌基因组中也存在重复序列，如rRNA操纵元、Paralogous基因、tRNA等，有可能导致不连续

的序列因与重复序列相邻，而被错误的拼接在一起。象鼠疫耶尔森氏菌中就存在大量的插入序列，最小的有700 bp（IS1541），大的有2 kb左右（IS100），这些插入序列的拷贝数从10到60不等(20, 41)，这么多重复序列的存在，很难保证最终得到的完成图没有错拼，所以必须对完成图进行验证。完成图的验证可以通过两个办法：PCR和限制性酶切物理图谱。

对较小的基因组可以通过PCR扩增验证完成图组装的正确性，在设计覆盖全基因组的引物，进行长距离PCR，如果引物能够按预定的顺序扩增成功，说明完成图组装正确没有错拼。该方法相对来说实验技术简单易行，但是不适合与太大的基因组。限制性酶切物理图谱验证，先对全基因组序列进行限制性酶切分析，模拟酶切后电泳图，与酶切后用脉冲场电泳图比较，如果两者吻合表明完成图没有拼接错误正确可靠。

限制性酶切脉冲场电泳操纵步骤：

1、细菌培养：细菌在LB 液体培养基中培养12～18小时（不能超过24小时），4000rpm收集菌体，重悬于细菌于TE(10 mM Tris,1.0 mM EDTA pH 8.0)溶液中。

2、制备胶块：用TE溶液以及低熔点琼脂糖制备1.2％琼脂糖凝胶，在55℃水浴中降温并维持温度恒定后，将菌体悬液与上述凝胶溶液等量混匀（55℃水浴中），将混合液加入模具中，室温冷却。 3、菌体裂解：将胶块从模具中取出，放在裂解缓冲液 (50 mM Tris, 50 mM EDTA, 1% N-lauryl-sarkosine, 2mg/ml proteinase K, pH 8.0)中，缓冲液一定要没过胶块；在55℃水浴中孵育 16～20h。

4、胶块洗涤：在55℃水浴摇床中，用5 ml蒸馏水洗涤三次，每次10分钟，随后用5 ml TE溶液洗涤3次，每次10分钟，注意转速控制在100rpm。洗涤后的胶块可以在4℃ TE溶液中保存1年。

5、限制性酶切：将胶块放在100?l 酶切缓冲液（不同的酶配有不同的酶切缓冲液）中处理1 h，期间晃动几次；弃缓冲液，再加入100?l 酶切缓冲液和10-20 U 限制酶，37℃ 过夜处理。 6、制胶： 0.5 x TBE 配制1.0% 胶。

7、电泳条件：

缓冲液： 0.5 x TBE

电压： 24 h, 6 V/cm (200 V)

转换时间：8 s - 10 s for 4 h; 15 s – 25 s for 16 h; 50 s - 65 s for 5 h 温度： 14 ℃

第三节基因组功能注释及比较基因组学分析

基因组学研究中，测序只是一个技术问题，只是一个最基本的数据积累。只要建立了成熟、稳定的方法，测序就只是一个技术活和工作量的问题了。通过训练一些熟练的技工，就可以进行流程化的操作，按既定的技术方案执行就可以完成任务。但是基因组学的目的不仅仅是为了获得基因组全序列，也不是为了找到一两个基因的序列，而是要阐明基因组所包含的所有信息、功能。测序工作的完成，只是解决了A、G、C、T这四个字母的排列顺序的问题，得到的只是一部没有任何标点符号、词句和段落的天书，解读这本“天书”是一个非常艰巨的工作。因此，获得基因组全序列只是基因组学这个万里长征中迈出的第一步。

原核生物的基因组复杂度相对于真核生物要小，同时由于其没有外元、内元（除在某些细菌的RNA基因中发现内元的存在外，鲜见关于蛋白编码基因中有内元的报道。），因此原核生物的基因预测和注释相对来说比较容易一些。但是基因组注释不是只靠一两位专家可以完成的，通常微生物基因组注释涉及微生物学、遗传学、生物化学、分子生物学、生物信息学和计算机科学等各个领域内的专家。完全读懂基因组这部“天书”不是一朝一夕可以完成的，有些内容目前还无法解读，有赖于新技术、新软件、新理论的出现和积累才能解决。一、碱基组成分析

碱基组成分析是最基本也是最容易的基因组注释前期分析工作，目前已经有很多现成的软件来完成这

项统计工作。通过这项分析可以了解基因组的GC含量（G和C这两种碱基占全基因组碱基数目的百分比），GC含量是物种的一个特征，在微生物分类学中常常把GC含量作为分类参数之一。在细菌基因组中，碱基的分布常常可能是不均一的，存在高GC或高AT含量区域。对于基因组中GC含量的不均一性有两种解释：一是认为GC含量很高的区域与整个基因组有着不同的来源，可能是通过基因水平转移（Horizontal Gene Transfer）获得的，因为基因组重排现象在细菌中是一种很常见的现象。基因水平转移也可能是物种多样性的基础和进化源泉，因为通过水平转移获得的基因往往可以使一个物种获得新的遗传性状，导致表型效应的改变。如在鼠疫耶尔森氏菌中，pgm位点上的强毒力岛（HPI, High-Pathogenicity Island）是鼠疫耶尔森氏菌毒力因子的重要组成部分，含有一个由11个基因组成的与耶氏杆菌素（Yeserniabactin）合成相关的基因簇，其GC含量明显高于其侧翼序列，就是在进化过程中通过基因水平转移获得的（图8-9）。如果缺失这个毒力岛，细菌的毒力就显著降低。因此，在病源菌中通过GC含量的分析可以寻找未知的致病功能基因，在非病源菌中可以用于基因组岛的分析。

强致病岛色素沉着片段

图8-9 鼠疫耶尔森氏菌pgm位点的G+C含量分布曲线图，强致病岛部分的GC含量显著高于其相邻的区域。

二、RNA基因的鉴定

1、tRNA基因的鉴定转运RNA（tRNA）是基因组中一个最大的基因家族，在一个典型的真核生物基因组中，有上百个tRNA基因，在人的基因组中估计有1300多个tRNA。在原核生物中，相对要比真核生物少，在目前已经完成全基因组测序的细菌中，最多的是Vibrio parahaemolyticus有126个，最少的Mycoplasma pulmonis只有29个。一个生物体中tRNA指令系统影响其高表达蛋白编码基因的密码子偏性，产生不使用的密码子。在预测ORF前，可以根据tRNA的反密码子辅助统计密码子的偏性，以提高蛋白编码基因预测的准确性。由于tRNA具有特殊的“三叶草”结构特征，根据这一结构不难鉴定tRNA基因。有很多用于tRNA基因鉴定的软件，有些是根据tRNA的一级核酸序列，有些是根据tRNA的特殊二级结构。现在认为用的比较好的、普遍使用的是华盛顿大学Lowe等开发的tRNAscan-SE，该软件是综合两种tRNA基因鉴定软件的预测结果，经过综合分析后给出预测结果的，既可以用于真核生物的也可用于原核生物的tRNA基因预测(53)。

2、核糖体RNA（ribosome RNA, rRNA）基因的鉴定目前除了一些预测RNA二级结构的算法软件外，还没有专门进行rRNA基因预测的软件，主要是通过已有的rDNA序列进行比对分析。三、重复序列

重复DNA序列是基因组结构的一部分，所有生物中都有重复DNA序列，在一些高等真核生物中（如人），重复DNA序列是整个基因组的主要组成部分。重复序列可以分成三类：1、串联重复或简单重复(Tandem repeat)，也称可变串联重复（Variable Number Tandem Repeat，VNTR），现在VNTR已经成为细菌菌株分型的一个重要分子标记。一段DNA（或几个碱基）被复制扩增到两个或更多的拷贝，所有的拷贝是前后相接一个连一个。串联重复DNA序列被认为是由原始序列，通过复制中的滑移（如单个碱基寡聚体）或DNA重组产生的。2、散在重复序列家族（Dispersed repeats），重复序列散布于整个基因组，主要包括转座子（Transposon）和反转录转座子（Retrotransposition）。3、片段横向扩增（Fragment duplication），

一个片段或基因通过复制，在基因组中由一个拷贝变成两个或更多个拷贝，横向扩增的机理和意义目前还不同清楚。

关于重复序列在基因组进化中的作用，一直是一个很受关注而又是争议最多的一个话题。重复序列非常之多，很好的注释它们是一个非常重要的工作，特别是对于重复序列家族，它们往往有自己的基因（转座子和反转录转座子），这些基因有可能干扰大规模的基因注释。由于DNA分子不停的经受各种突变事件，因此不同拷贝重复序列可能在序列同源性上已经有较大差异，它们彼此之间有可能为不完全重复，这就给重复序列的鉴定和注释带来了困难。现在已经开发了用于重复序列家族鉴定和系统的基因组注释的计算软件，RepeatMasker(50)是一个较早的用于重复序列的寻找，及基因组拼接中屏蔽重复序列干扰的重复序列分析软件。它事先建立一个已知的重复序列数据库，通过同源比对分析寻找重复序列，它依赖于基因组中重复序列是已知的情况下。但是重复序列具有物种特异性，如果在分析一个全新的基因组时，就需要一个能够从头寻找新的重复序列的软件。寻找简单串联重复序列的软件有Benson开发的Tandem repeats finder(14)，大的、散在的重复序列鉴定软件中，常用的有Bao等开发的RECON(12)。

四、蛋白编码基因的预测和组功能注释

基因组功能注释的研究对象是基因组序列，是功能基因组学的主要研究目标，主要是应用生物信息学方法高通量的注释基因组所有编码产物的生物学功能，该领域是功能基因组学研究的热点。基因组功能注释可以分为结构注释和功能注释两个阶段，第一步是结构注释，通过基因组组成元素的识别，预测基因组的全部编码区（CDS）或称“开放阅读框架(open reading frame , ORF) ”确定来识别基因，接下来要进行信息加工，即第二步功能注释。

4.1 基因组ORF的识别目前基因预测方法可以分为内在的和外在的（Intrinsic、Extrinsic）两大类，内在的或称从头开始的预测方法，是通过对未知DNA 片段的编码可能性的评估进行基因预测，又称为概率型方法。通过探测特别的核酸基元或整体统计模式，利用统计的、语言学的或模式识别算法来预测DNA序列中的基因。而外在的预测方法在进行基因预测时注重考虑已知的蛋白信息，通过同源性比较方法搜寻已知蛋白质数据库进行基因预测。对于真核生物还可以通过与dbEST库同源性比对找寻编码区，由于EST测序的飞速发展，使得dbEST中的记录已经超过一百多万条。对于人基因组来说，理论上接近所有的基因都在dbEST库中有对应的EST。这种预测方法在真核生物的基因组功能注释中越来越受到重视，不仅因为它可以判断一段DNA中是否包含ORF，而且能精确地给出该基因的内含子和外显子的剪切模式。

现在有很多从头开始识别蛋白编码区和功能位点的算法，如GENSCAN、GeneMark、GeneMark.hmm、GeneMarkS、GLIMMER、ORPHEUS、CRITICA等。在原核生物中用的较多的有利用非同质的马尔可夫模型来识别蛋白编码区的GeneMark，98年Alexander推出了它的升级版GeneMark.hmm(36)，在进行基因预测时整合考虑了RBS位点信息。Salzberg等开发了基于内插入式马尔可夫模型的基因预测软件GLIMMER，可以预测全基因组中97～98％的基因(19)。EcoParse则是基于隐马尔可夫模型开发的基因预测软件，用最大似然法将DNA序列解析为编码区和非编码区(48)。

外在的基因预测分析是将可能的基因蛋白产物与蛋白数据库进行相似性比对分析，目前比较流行的用于DNA序列与蛋白数据库比对分析的软件有BLASTX，先将DNA序列从六个阅读框翻译成氨基酸，用所得的氨基酸序列与已知的蛋白数据库进行比对搜索。BLASTX只是用于DNA片段的比对分析，而DPS则可以将完整的基因组全序列（3～5 Mb或更多）在一个流程中与数据库中全部的蛋白序列进行比对分析。单独应用内在的或外在的方法很难保证能够成功的进行基因预测，越来越多的原核生物基因组分析经验告诉我们，在进行基因预测时有必要整合所有可能的及能获得的信息，以提高基因预测的准确性和灵敏性。目前微生物基因组功能注释中使用较多的是GLIMMER、ORPHEUS、CRITICA，下面将对这三个软件作简单介绍。

GLIMMER 最可靠的基因预测方法是通过与其它生物体的比对寻找同源基因，可以用BLAST或FASTA在GenBank中搜索，但是在一个新的基因组中有很多基因与已知的没有显著的同源性(25)，这些基因只有通过计算方法来鉴定其编码区。GLIMMER应用内插入式马尔可夫模型技术（Interpolated Markov

Models，IMM），在微生物基因组中寻找基因(15)。马尔可夫模型是一个非常著名的生物学序列数据分析工具，在微生物分析中使用较多的是固定顺序的马尔可夫模型（Fixed-order Markov chain），在这一模型中是根据前面固定数目几个碱基，来预测每一个碱基。例如GeneMark所用的就是第五顺序马尔可夫模型，根据前面五个碱基预测第六个碱基。但是该方法缺陷是如果没有足够的训练数据，用于准确的预测第六个碱基。内插入马尔可夫模型是整合了可变长度碱基序列进行预测的，仅利用那些数据充足的碱基序列进行预测。GLIMMER由两个程序：A、建立imm，用输入的序列作为训练数据建立IMM，训练数据可是完整基因或部分ORF；B、glimmer，用前面建立的IMM在全基因组中寻找所有可能的基因。GLIMMER不是用滑动的窗口给每区域打分，它先寻找所有长于某个域值的ORF，从六个阅读框给每个ORF打分，分值高的ORF被留下，并进入下一轮分析，下一步是对留下的ORF进行重叠分析。如果在两个不同阅读框的ORF有重叠，重叠部分分别进行打分，重叠区的六个阅读框的分值与两个重叠ORF的分值比较，看哪个阅读框的分值高。如果一个长的ORF与一个短的ORF重叠，一般重叠区的与长ORF在同一个阅读框中的分值最高。在1999年推出的GLIMMER 2.0中，作者对两个重叠ORF的分析作了改进(19)。在GLIMMER 1.0中，若A和B两个ORF有重叠，如果A比B长并且A在重叠的分值比B高，在移动B的起始密码子也不能解决重叠的话，B将被删去(46)。在GLIMMER 2.0中对重叠区的打分同1.0一样，但是在移动起始密码子时则有所不同，有效的提高的预测效果，但是它是牺牲准确性的情况下提高了预测的灵敏性，在减少假阴性的前提下，增加了假阳性，所以在自动注释结束后，要在人工注释阶段删去一些假阳性。

CRITICA（Coding Region Identification Tool Invoking Comparative Analysis）是一个通过结合比较分析DNA序列和非比较方法，来鉴别DNA中蛋白编码序列的软件包。在比较分析部分，DNA区段与DNA数据库中相关序列进行对位排列，如果对位排列部分翻译称氨基酸后，具有很高的氨基酸序列相似性，就是作为是编码区的证据(11)。CRITICA还整合了来自编码框内六核苷酸的频率等非比较信息。

ORPHEUS ORPHEUS是一个整合了内在的和外在的基因预测方法(26)，同时溶入RBS信息进行基因预测和基因起始位点的准确定位的软件包。该软件的算法是基于一个假说，即通过相似性搜索所得的编码区比通过统计数据获得编码区更可靠，通过在数据库进行相似性搜索寻找可靠的基因片段，该基因片段用于蛋白编码区和RBS的特征性统计分析，然后应用这些统计分析结果数据预测整个基因组中可能的基因。

4.2 核糖体结合位点的预测在原核生物中通过计算系统预测基因的灵敏性可以达到98~99%或更高(19)，但是要准确的定位基因的起始位点还是一个难题，主要由于很少基因的起始位点是经过实验验证的，大多数都是通过计算确定的。正确的预测基因的5’和3’末端，对于原核生物来说特别重要，尤其是很多重要的信号信息都是蛋白编码基因的5’端，同时蛋白质的氨基端（N端）也是很多信号识别位点（如信号肽）。

蛋白质合成开始时，核糖体结合到信史RNA（mRNA）的5’末端的核糖体结合位点（Ribosome-Binding Site，RBS），RBS一般位于起始位点上游8～10个碱基的位置，通常可以通过SD（Shine-Dalgarno）序列模式特征识别。RBS是由与16S rRNA的3’末端互补的6 bp的基元组成，虽然在原核生物中这6 bp基元的序列有所差异，但是由于16S rRNA的高度保守性，因此一般比较保守。美国TIGR中心利用原核生物基因的这一特性，开发了用于RBS和基因的起始密码子的算法软件－RBSfinder，主要用于预测的基因起始密码子的修改，预测完基因后运行该软件可以在很大程度上提高预测的准确性(51)。特别是象Glimmer(19)和早期版本的GenMark基因预测软件(36, 37)，它们在预测时没有考虑RBS这一信息，虽然它们的基因预测准确性也不错，但是如果在结合RBS信息后，可以更好的提高预测的准确性。

该算法先是寻找“种子”序列（seed sequence），然后用“种子”序列训练一个核糖体结合位点的概率模型，以这个模型在预测的基因的起始密码子上游寻找RBS。在原核生物中RBS与16S rRNA的3’末端互补，如果某个物种的16S rRNA序列是已知的，那么最简单的选择物种特异性序列的办法就是用16S rRNA基因序列作为“种子”序列。如果没有16S rRNA基因序列，也没有近缘物种的16S rRNA基因序列，就用从头开始的方法寻找基元作为“种子”序列。Tompa等就开发了一个专门在起始密码子上游寻找保守基

元的算法软件（reference）。

运行RBSfinder时，程序将在预测的起始密码子上游寻找所有可能的RBS，如找到合适的RBS，即不修改预测的起始密码子。如在原来预测的起始密码子上游或下游寻找到更合适的RBS，那么就需要对起始密码子的位置进行修改，新的起始密码子必须和原来的在同一个阅读框内。如果有几个可供选择的起始密码子存在时，应该遵循以下原则：1、相对于GTG和TTG来说，优先选择ATG作为起始密码子，即使它的RBS域值不高。2、对于TTG来说，优先选择GTG作为起始密码子。

4.3 蛋白序列中跨膜区的预测在膜蛋白细菌的生命过程中具有及其重要的作用，细菌的生活环境变化较大，有时生存在两种截然不同的环境中，特别是病源菌。环境的改变有温度、离子浓度和渗透压等，细菌要想更好的适应不同的环境，就必须能够很快的感知环境的变化刺激，以便及时作出适应性调节。膜蛋白在感受外界环境变化的刺激中扮演着主要角色。对于很多异养菌，营养物的摄取也通过膜蛋白来识别、结合，然后运送导膜内。生活在极端环境中的细菌（如嗜盐菌），有选择性的吸收一些离子也需要通过膜蛋白来实现。膜蛋白是细菌生命活动过程中的重要生力军，因此正确的注释膜蛋白对于基因组功能的注释及细菌生理功能的了解，具有关键性的作用。

蛋白质中跨膜区α螺旋的预测是常见的序列分析，主要理论依据是跨膜区的α螺旋由一长串疏水氨基酸组成，这种组成偏斜主要是因为位于脂膜内的氨基酸必须能够适应与脂膜之间的疏水作用。TopPred是最早用于蛋白跨膜区拓扑结构预测的软件，主要应用两个经验性的疏水性域值来，在滑行的窗口中寻找可能的跨膜螺旋(54)。这种方法的缺陷是可能会漏预测一些低于域值的跨膜螺旋，因为在一些蛋白存在多重跨膜螺旋，多重跨膜的膜内螺旋会存在一些非疏水的氨基酸，以便螺旋之间的相互作用。先后又有不同的研究人员基于不同的算法编写了一些改进的软件，象结合疏水性和拓扑遗传（topogenic）信号的限制性动态程序——Memsat(33)，还有应用神经网络结构预测跨膜区域的PHDtm软件(45)，以及基于扫描信号序列或多重比对进行拓扑结构预测的TMAP(43)。这些方法虽然都各自的优势和不同的改进，预测的准确性和完成性都有所提高，但是都存在各自的缺陷。目前应用较多的是Sonnhammer和Krogh等开发的基于隐马尔可夫模型的TMHMM预测软件(34)，该软件适合于高通量的基因组功能注释研究，并且可以通过网络递交进行预测（http://www.cbs.dtu.dk/services/TMHMM），只需给出Fasta格式的序列文件，既可以文本文件也以图形化的界面输出结果（图8-10）。

图8-10 Escherichia coli K12中yedA（b1959）蛋白的用TMHMM预测跨膜区的图形界面输出的预测结果，在该蛋白中共预测了10个跨膜区。

4.4 信号肽的预测在原核和真核生物中，信号肽控制着所有的分泌路径的分泌蛋白，信号肽的序

列决定了分泌蛋白的去向。信号肽构成了蛋白的氨基端，在分泌蛋白与膜上的信号识别蛋白结合后，分泌蛋白被跨膜运输，同时信号肽被信号肽酶切除。各种蛋白的信号肽结构一般是由带正电荷的n区和后面的疏水的h区及中心的但是极化的c区组成，信号肽酶切位点的上游1到3个氨基酸必须是小的且中心的氨基酸。由于海量基因组数据的出现，迫切需要自动化的信号肽和信号肽酶切位点预测工具，同时在工业生产上也迫切需要一个有效的信号肽预测工具，以提高重组系统中蛋白的产量。在重组蛋白表达系统中，无论是在原核或真核细胞中表达，如果目的重组蛋白以可溶性的形式分泌到膜外，即可以提高蛋白的产量，也使重组蛋白易于纯化而获得高纯度高活性的功能蛋白。丹麦科技大学的Nielsen等，开发了一个基于双重网络系统预测信号肽和信号肽酶切位点的预测软件Signalp，目前被广泛的用于全基因组注释中信号肽的预测(38)。可以邮件的形式提交数据（signalp@cbs.dtu.dk），也可以通过基于Web的进行任务提交（http://www.cbs.dtu.dk）。提交数据的格式为Fasta格式，同时为了避免输出结果受到蛋白下游假阳性的干扰，最好仅递交蛋白氨基酸端的50～70个氨基酸即可。

4.5 注释所有ORF蛋白产物的功能

在预测了所有可能的ORF后，下一步就是对这些可能的ORF进行功能注释。对于已有实验证据的基因产物只需将功能描述与相应基因关联即可。对于无实验证据的基因，从生物信息学研究的角度出发，主要有三大类方法可用于高通量的基因组功能注释工作：①用最大相似的同源基因的功能注释咨询序列（Blastp）；②用模体(MOTIF) 搜索，因为模体往往是功能相关的保守序列；③用Tatusov 等的COG(cluster of orthologous group) ——直系同源簇方法，即用不同种族的基因成对相似聚类法把它们划分成各种直系同源簇，从而可以用同一簇中的已知基因注释未知基因。在序列分析之外，还有两个研究领域对基因组功能注释有着重大意思：结构基因组学研究和蛋白质组学研究。结构基因组的研究使得三维结构模建和结构域的识别成为基因组功能注释的一个重要方面(22)。蛋白质是生命状态的直接体现者，随发育阶段、特定组织甚至所处的环境的变迁而变化，蛋白质组也处于动态变化之中，蕴藏着大量的动态的生命活动信息。序列分析难以处理的没有任何同源序列的“孤儿”基因（与已知基因的序列相似性很低，只有20～30％，难以作出合理的功能预测，因此称为“孤儿”基因），有望从蛋白质组的表达变化规律中找到其生物学功能的线索，进而揭示它在整个功能网络中的地位。目前，蛋白质组的核心技术二维凝胶电泳和质谱分析高速发展，可以一次分离几千甚至上万蛋白质点并进行鉴定及分析功能。随着蛋白质组技术的日益成熟，它可作为现有功能注释的鉴定和补充。

最大序列相似性搜寻基于序列比较的最大相似法为序列基因组学解决了许多问题, 在各种基因及蛋白质的进化、结构、催化等特性的研究中取得了很多成果，但是相似性比较肯定会导致错误并会产生级联放大反应。比如1998 年的网络杂志《In Silico Biology》第一期中，列举了大量此类错误。错误的根源在于“同源=功能相似”的假定。相似比较没有解析各种族基因间的进化关系，如趋同和趋异、重复(duplication)、基因缺失(gene lose)、基因水平转移(gene horizontal transfer)等。由于其具有高通量与自动化的优势，为减少错误，实际运用中作了改进：设立了几个同源性指标等级，如P值从10-100到10-10之间有4档，另外还有同源区域的长度比例条件。这样包含了一对多、多对多的直系同源关系, 部分改善了最高相似法的结果，但没有从根本上解决问题。

序列模体搜索序列模体搜索的是查找序列上的局部特征。在序列整体同源性不明显的情况下，模体搜索可以提高功能预测的灵敏度，模体分析一般由两部分组成：首先收集现有的蛋白质家族，通过蛋白质家族各成员的多重联配来构造模体数据库，而后通过搜索该数据库预测未知蛋白质的功能。蛋白家族信号诊断、结构域和功能位点数据库，是新的、无生物化学特征的蛋白序列的计算功能分类的重要工具。在过去的十年中针对不同序列分析目的，开发了不同的信号识别和序列分类方法，并建立了不同的独立的数据库，如PROSITE、Pfam、PRINTS、ProDom、Blocks、SMART和TIGRFAMs等(10, 13, 17, 28, 30, 47)。这些数据有着各自的优缺点和应用范围，并且不能进行自动化分析。随着基因组数据的飞速增长，迫切需要自动的对未知序列的功能注释工具， InterPro数据库就是在这样一个前提下建立的(8)，它整合了PROSITE、Pfam、PRINTS、ProDom、SMART和TIGRFAMs的数据，提供完整的全面的自动的蛋白质家族、结构域和功能位点数据库信息。InterPro可以通过欧洲生物信息学研究所（Europe Bioinformatics

Institute，EBI）的网站进行交互式访问和分析（http://www.ebi.ac.uk/interpro）。模体本身具有层次性，在一个蛋白质家族具有相同的模体的情况下，亚家族可能具有各自特异的模体，它们与功能的联系更为特异。而目前现有的模体库在制作时没有深入考虑进化关系，其形成的模体往往不是功能特异的。这成为用模体搜索法作基因组功能注释的最大障碍。

COG方法 Tatusov等的COG方法是在基因组水平上找寻直系同源体(52)，从而预测未知ORF 的生物学功能，所谓直系同源(ortholog)是指不同物种中由同一个祖先基因特化而来的对应基因，相应旁系同源(paralog) 是指基因组内基因复制形成的多个基因。一般而言，直系同源之间保持了同样的功能，旁系同源则进化出不同的功能。因此，确定直系同源对功能注释的可靠性很重要。COG的构建者提出了三项考核标准，即A基因组的某个基因a是B基因组中基因b的直系同源需满足：第一，a是b在A基因组中同源性最高的基因；第二，若C基因组与B基因组在系统发育树上的距离大于A到B的距离，c是b在C基因组中同源性最高的基因，则要求ab之间的同源性好于cb之间的同源性；第三，ab的同源区域大于各序列长度的60 %。若三条件在ab互换时也成立，则ab两基因互为直系同源。他们以7 种全基因组序列已知的生物为对象，用BLAST 交错搜寻，构造出720个COG，由于“直系同源＝功能相似”比“同源＝功能相似”更接近于生物学的客观实际，从而可以将功能信息从COG的一个成员传递到COG中其他功能未知的成员。该方法充分利用了全基因组已知的优势，大大提高了功能注释的准确度。

进化分析方法虽然COG方法相对于最大相似性搜寻来说，大大提高了基因组功能注释的准确度，但是COG的核心即直系同源的判断方法仍在序列相似性比较的框架内。Eisen主张用较为严格的进化分析的方法划分直系同源(21)。具体方案是：先找寻同源性为基础的蛋白质家族，再用进化分析方法将其分为亚家族，并用亚家族中已知蛋白质的功能描述注释该亚家族中功能未知的成员。由于基因树与物种进化关系形成的种族树之间常有矛盾，Page等发展了和谐树——“RECONCILED TREE”方法来识别基因重复与基因丢失等进化事件(40)。和谐树反映了基因在基因组载体上的进化历程。进化分析的范围可以从单个基因组扩大到具有不同系统发育位置的多个基因组。进化分析方法涉及的分析工具较多，无法自动化操作，难以实现高通量的功能注释。

进化印记搜索解涛等在进化分析方法的基础上，发展出一种利用生物分子进化印记——直系同源体特异的模体注释基因组功能的简便与有效的方案(55)。其理论指导思想是基于生物的进化历程必定会在分子序列上留下相应的进化印记，即家族特异模体和直系同源簇特异模体组成的功能特异模体。方法是首先用严格的进化分析方法把基因家族划分成各个直系同源簇，然后构建家族及每个直系同源簇的特异模体，借助已有的生物学事实，形成功能模体库，每一个未知基因产物的功能就用搜索此功能模体库来鉴定。该方案综合了进化分析的准确与模体搜索的快速的特点，对5个家族检验获得初步成功，显示出该方案具有潜在的优势。

五、运用Artemis软件人工注释

Artemis是Sanger中心开发的一种可视化图形界面的辅助基因组功能注释工具，通过该程序可以将各种注释信息进行整合，对一些ORF进行取舍和更细的功能注释。手工注释将比自动注释获得更准确、详细的注释信息，尽管手工注释不适用于特别大的基因组数据。手工注释包括每个基因的手工检查、自动注释所赋予的功能。

1、自动注释结束后，一些基因可能没有功能注释信息，尽管与其它有功能信息的基因具有很好同源性的基因。这主要是由于一个基因同时比对上具有不同功能的两个基因，因此这时就需要更细致的分析，对该基因进行准确的功能注释。

2、ORF的取舍在ORF预测时肯定存在一些假阳性，这些ORF在功能注释结束后可能没有任何注释信息，这时就需要怎样把它们与“孤儿”基因区别开来，从基因组注释文件中删去。我们的注释原则是，如果一个ORF没有核糖体结合位点、跨膜区、信号肽、InterPro信息，同时长度不超过150 bp就认为是假阳性删去。

3、假基因的确定使基因失活成为假基因的机制主要有：移码突变、无意突变、插入序列插入打断、由于基因组重排被打断。由于插入序列插入而失活的基因，如果插入的位置在基因的起始或末端，并且没

有打乱阅读框时，基因预测和注释软件可能发现不了，这时就需要手工的加以修改。如果一个基因的起始密码子或终止密码子位于插入序列内，我们即认为这是由于插入序列插入失活导致假基因。

六、序列发布和递交（GenBank）在所有的注释信息确认无误后，基因组全序列和注释文件就可以对外发布和数据库的递交。

七、比较基因组学分析

什么叫比较基因组学，比较基因组学是指对两个或更多的有机体的基因组进行整体的结构和功能比较。比较基因组学的用处有：1、根据基因在基因组上的位置，以另一个基因组作为参照，推导基因的功能。2、以另一个基因组为路线图发现具有特殊功能的基因。

1、比较基因组学是根据基因组全序列数据分析，提供深刻物种多样性认识，不像其它分析方法（如多位点基因组扫描）所具有的偏性。2、全基因组比较所获得的多态位点，可以用经济快速的PCR扫描技术，对细菌群体的遗传变异进行分析。3、比较基因组测序可以发现新的、支系特异的分子标记，并用于高通量的基因组分析计划。4、全基因组的比较分析，可以从基因组成水平上的差异，揭示导致亲缘关系很近的菌株和分离株的感染力和毒力的表型差异，同时可以易于发现那些有意的导入生物战剂中的基因。如果有一株近缘种的基因组全序列已经完成，那么基因组之间的比较分析比仅有“工作框架图”的基因之间的比较更有意义。 1、

基因组结构

1.1 重排在细菌中除一些操纵元外，不同细菌间基因的顺序没有一定的规律这种基因位置的无序性主要是由于基因组内的重排引起的。细菌基因组中除存在一些可移动元件（Transpons），同时还存在一些低拷贝数的重复序列，象rRNA、tRNA，另外在某些细菌中还存在高拷贝数的插入序列，通过这些重复序列的介导的同源重组也增加了细菌基因组的不稳定性。因此，细菌的基因组是一个动态的状态存在，不停的发生着基因组内的重排。这种基因组内频繁的重排，不仅常见于不同物种之间（Bordtetella）,而且还多见于一些基因组内存在较多插入序列的种内之间（Yersinia）。

1.2 GC含量

2、基因组多态性

2.1 SNP 2.2 VNTR

2.3 基因的获得/缺失

第四节基因组学在生物恐怖及不明原因突发性疾病中的应用

在由病原微生物引发的突发事件中，对微生物的物种及菌株来源进行最终鉴定的一个重要手段即是全基因组序列的比较。根据现有的全基因组数据，进行全基因组水平上的比对分析，根据所得到的遗传多样性或进化信息，可了解其传播过程的流行病学动态，增强对其种群动态和系统发生学的认识；即便是针对那些变异速度快微生物病原体，也能最终追踪其来源。完成一个细菌的全基因组测序目前还是一个浩大的研究工程，投入的财力也非一般研究单位所能承受。仅从微生物法医学发展的角度来看，对于一个具有医学重要性的微生物，至少要挑出三株代表性菌株，在加上若干近缘菌种，进行全基因组测序。而生物恐怖病原体列表中排列较前的病原应测定10~20株的全基因组序列。当然在建立国家的菌种库的基础上，深入研究这些微生物的遗传多样性，建立遗传多样性数据库，无疑更好。以下举若干例子说明全基因组测序及比较基因组分析在微生物法医学及突发性不明原因疾病中的应用。

一、基因组学分析在1999年美国东北部脑膜炎流行的病原体－西尼罗河病毒研究中的应用

在1999年8月末至9月初，纽约市及其周边地区爆发了与虫媒病毒病相似人间脑膜炎流行。血清学分析显示，该病的病原体可能是一种黄热病病毒。伴随人间脑膜炎的爆发，在美国的这些地区中也发现了死域

不明原因的病毒性脑膜炎的乌鸦尸体，同在这些地区还发现一些来自异域的鸟类的尸体，象布朗克斯动物园的智利火烈鸟（Phoenicopterus chilensis）(1-6, 16, 18, 23, 24, 31, 32, 35, 39)。

美国农业部国家兽医服务实验室对鸟类的尸检样本，接种鸡胚分离病毒。接种四天后，用电镜观察到黄热病毒样颗粒，随后这些分离物被送到美国疾病预防控制中心（CDC）进行进一步鉴定。CDC对分离自智利火烈鸟的病毒分离株（WN-NY99）进行了全基因组测序(35)，该病毒的基因组全长为11029 bp。WN-NY99的基因组为标准的黄热病毒基因组结构，与WN-Nigeria和Kunjin病毒具有相同的全基因组结构。5’

端为96个碱基的非翻译区，从97到10302为一个开发阅读框架，编码衣壳结构蛋白、前膜蛋白（prM）、封套蛋白（E）和5个非结构蛋白（NS1、NS2a/NS2b、N3、NS4a/NS4b和NS5），3’端是61个碱基的非翻译区。经荧光标记免疫抗体对分离自鸟、蚊子及其它黄热病毒检测分析，发现来自北美的病毒分离株都是西尼罗河病毒。

通过全基因组测序明确了，引起这次人间脑膜炎流行的病因后，CDC的研究人员又通过比较基因组学方法，对这些病毒的来源及与其它相关近缘病毒的进化关系进行了研究。通过对E糖蛋白基因对位排列分析，并用不同方法构建了系统发育树。系统发育树的拓扑结构与以前研究结果一致，WN病毒和KUN被分成两个主要支系。值得关注的是，系统发育树中，WN-NY99与1998年分离自以色列的一个死鹅的WN病毒聚在一起，显示两者之间明显的情缘关系。用NS5蛋白的部分编码序列和3’非翻译区（830 bp）核酸序列构建的系统发育树，也具有同样的拓扑结构，WN-NY99与WN病毒具有非常近的亲缘关系。Briese等对分离自纽约市因脑膜炎而死掉的人脑样品，用PCR扩增所得核酸序列，与KUN和WN病毒基因组中非结构蛋白的基因序列比较分析发现，导致纽约市脑膜炎爆发的病毒与KUN病毒具有更近的亲缘关系，因此将导致这次脑膜炎爆发的病毒命名为Kunjin/West Nile-like virus(16)。为更进一步导致这次脑膜炎爆发的病毒与其它黄热病毒的亲缘关系，Lanciotti等又用编码prM和E蛋白的基因序列构建了系统发育树，得到与他们前面一致的结果，即WN-NY99与WN病毒的亲缘关系更近，

随后与Briese同一个研究小组的Jia的研究也支持该结果(32)。所有分离自纽约的WN病毒与1998年在以色列分离的一株WN病毒具有高度的序列相似性（>99.8%），WN-NY99与该病毒仅有两个碱基差异，而WN-NY99与其它病毒的相同区域的基因序列有37个碱基的差异（96.9%），因此可以推论导致纽约及其周边地区爆发脑膜炎的病原体为1998年在地中海流行的西尼罗河病毒（WN virus）。

二、基因组学分析在炭疽生物恐怖中的应用

炭疽为人畜共患的一种急性、烈性传染病。炭疽杆菌为炭疽的病原菌，革兰氏染色阳性，不具有运动性，在氧气充足、温度适宜(25～30℃) 的条件下容易形成芽孢。炭疽杆菌芽孢具有很强的生命力，在自然环境中可存活几十年。在活体或未经解剖的尸体内，则不能形成芽孢。芽孢进入生物体内迅速繁衍形成荚膜并释放生物毒素，形成荚膜是生成毒性的特征。炭疽毒素在生物体内通过附着在细胞之外的受体蛋白为“桥梁”攻击体细胞，导致细胞破裂，破坏体内的免疫系统，同时诱发肺水肿和肺积水，严重的并发内脏出血，以致造成死亡。

在自然环境中，炭疽杆菌以芽孢的形态存在于土壤、动物粪便和空气中。特别是潮湿低洼地和牧区，更是炭疽杆菌芽孢藏身和繁衍的最佳场所。引发的疾病主要发生在野生或家畜等动物身上。例如牛、骆驼、羊、羚羊、黄羊等食草动物。人类直接感染的概率极低，人类必须是直接接触这种病菌，才有可能被感染。如果将炭疽杆菌的芽孢烘干，制成白色或浅褐色的粉末，可与其他细微粉状物混合在一起，使用某种抛投方式或夹带，使其飘浮在空气中，就可以制造出无味、无色，人眼无法识别的云雾，吸入后也会被感染。炭疽杆菌具有以下特征：1、比较容易获取，生产简单、方便、成本低；2、传染面广，人畜均可被感染；3、不受季节环境影响，一年四季均可发病；4、芽孢的生命力极强，在自然界可长期存活；5、致病率和致死率高。这特征也正是炭疽被恐怖主义者利用的原因。

2001年10月4日，美国CDC报告了佛罗里达州西海岸某媒体组织的一个照片编辑，因吸入式感染炭疽，这是当时几个星期来，在一系列白色粉末信件袭击中，第一例感染者。这次袭击导致5人死亡，和几例严重吸入式炭疽。这一轮生物恐怖导致几十亿美元的经济损失，加重了群众在世贸中心悲剧之后的焦虑和惶恐。

炭疽的病源菌炭疽芽孢杆菌，是一个单系物种，来自不同分离株的基因的核苷酸序列相似性达99％，

纪型，但是是中国鼠疫菌中一个较古老的分支，与其它菌株可能有着不同的起源，应该归为一个独立的生物型——田鼠型；C、来自I、J和K这三个疫源地的中世纪型菌株，可能起源于松辽平原达乌尔黄鼠鼠疫自然疫源地和冈底斯山喜马拉雅旱獭鼠疫自然疫源地的菌株；D、C、D和E三个疫源地的菌株情缘关系较近，东方型鼠疫菌株可能起源于其中的某一支。情缘关系较近的菌株在DNA碱基组成上相似，因此它们的生理生化和毒力等表型也应该相似，对于这些疫源地的菌株可以采取相似的防治措施。同时在了解鼠疫菌在传播路径后，就可以寻根究源，从而切断其传播路径。

表1 260株鼠疫耶尔森氏菌在疫源地的分布及基因组型

疫源地生物型 Focus A 古典型 Focus B 古典型 Focus C 古典型 Focus D 古典型 Focus E 古典型 Focus F 东方型 Focus G 古典型 Focus H 古典型 Focus I 中世纪型 Focus J 中世纪型 Focus L 中世纪型 Focus M 中世纪型 Focus N 注释:

Focus A：帕米尔高原长尾旱獭鼠疫自然疫源地

基因组型菌株数

Genotype 2 11 Genotype 1 30

Genotype 4 16

Genotype 7 22 Genotype 3 Genotype 5

11 30 21 20 19 20 Focus K 中世纪型 Genotype 6 9

Genotype 8

没有来自该疫源地的菌株 Focus B：天山山地灰旱獭、长尾旱獭鼠疫自然疫源地 Focus C：青甘藏高原喜马拉雅旱獭鼠疫自然疫源地 Focus D：祁连山喜马拉雅旱獭鼠疫自然疫源地 Focus E：滇西纵谷齐氏姬鼠、大绒鼠鼠疫自然疫源地 Focus G：冈底斯山喜马拉雅旱獭鼠疫自然疫源地 Focus F：滇闽粤居民区黄胸腺鼠鼠疫自然疫源地. Focus H：松辽平原达乌尔黄鼠鼠疫自然疫源地 Focus I：内蒙古高原长爪沙鼠鼠疫自然疫源地

Focus J：甘宁黄土高原阿拉善黄鼠鼠疫自然疫源地 Focus K：昆仑山喜马拉雅旱獭鼠疫自然疫源地 Focus L：锡林郭勒高原布氏田鼠鼠疫自然疫源地

Focus M：青藏高原青海田鼠鼠疫自然疫源地 Focus N：呼伦贝尔蒙古高原旱獭鼠疫自然疫源地

Focus C、D、G和K属于青藏高原喜马拉雅旱獭鼠疫自然疫源地的四个亚疫源地。呼伦贝尔蒙古高原旱獭鼠疫自然疫源地（Focus N）是1911年发现的，在1910年和1920年曾发生过两次人间鼠疫，但是自1950年以后没有再从该疫源地分离到鼠疫耶尔森氏菌，因此认为该疫源地处于静息期。本研究所用菌株，为来自10个疫源地（A到M）的260株鼠疫耶尔森氏菌自然分离株。

1、

西尼罗河病毒

参考文献

1. 2. 3. 4. 5. 6. 7. 8.

1999. Emerging diseases. West Nile near the Hudson. Harv Health Lett 25:6-7. 1999. Exotic diseases close to home. Lancet 354:1221.

1999. From the Centers for Disease Control and Prevention. Update: West Nile virus encephalitis--New York, 1999. Jama 282:1806-7.

1999. From the Centers for Disease Control and Prevention. Update: West Nile-like viral encephalitis--New York, 1999. Jama 282:1714.

1999. Outbreak of West Nile-like viral encephalitis--New York, 1999. MMWR Morb Mortal Wkly Rep 48:845-9.

1999. Update: West Nile-like viral encephalitis--New York, 1999. MMWR Morb Mortal Wkly Rep 48:890-2. Achtman, M., K. Zurth, G. Morelli, G. Torrea, A. Guiyoule, and E. Carniel. 1999. Yersinia pestis, the cause of plague, is a recently emerged clone of Yersinia pseudotuberculosis. Proc Natl Acad Sci U S A 96:14043-8. Apweiler, R., T. K. Attwood, A. Bairoch, A. Bateman, E. Birney, M. Biswas, P. Bucher, L. Cerutti, F. Corpet, M. D. Croning, R. Durbin, L. Falquet, W. Fleischmann, J. Gouzy, H. Hermjakob, N. Hulo, I. Jonassen, D. Kahn, A. Kanapin, Y. Karavidopoulou, R. Lopez, B. Marx, N. J. Mulder, T. M. Oinn, M. Pagni, F. Servant, C. J. Sigrist, and E. M. Zdobnov. 2001. The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res 29:37-40.

9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.

Arratia, R., E. S. Lander, S. Tavare, and M. S. Waterman. 1991. Genomic mapping by anchoring random clones: a mathematical analysis. Genomics 11:806-27.

Attwood, T. K., M. D. Croning, D. R. Flower, A. P. Lewis, J. E. Mabey, P. Scordis, J. N. Selley, and W. Wright. 2000. PRINTS-S: the database formerly known as PRINTS. Nucleic Acids Res 28:225-7. Badger, H. J., and J. G. Olsen. 1999. CRITICA: Coding Region Identification Tool Invoking Comparative Analysis. Mol Biol Evol 16:512-524.

Bao, Z., and S. R. Eddy. 2002. Automated De Novo Identification of repeat sequence families in sequenced genomes. Genome Research 12:1269-1276.

Bateman, A., E. Birney, R. Durbin, S. R. Eddy, K. L. Howe, and E. L. Sonnhammer. 2000. The Pfam protein families database. Nucleic Acids Res 28:263-6.

Benson, G. 1999. Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids Res 27:573-580.

Borodovsky, M. Y., and J. D. McIninch. 1993. GeneMark: parallel gene recognition for both DNA strands. Comput Chem 17:123-133.

Briese, T., X. Y. Jia, C. Huang, L. J. Grady, and W. I. Lipkin. 1999. Identification of a Kunjin/West Nile-like flavivirus in brains of patients with New York encephalitis. Lancet 354:1261-2.

Corpet, F., F. Servant, J. Gouzy, and D. Kahn. 2000. ProDom and ProDom-CG: tools for protein domain analysis and whole genome comparisons. Nucleic Acids Res 28:267-9. Cowley, G., and C. Kalb. 1999. Anatomy of an outbreak. Newsweek 134:76-8.

Delcher, A. L., D. Harmon, S. Kasif, O. White, and S. L. Salzberg. 1999. Improved microbial gene identification with GLIMMER. Nucleic Acids Res 27:4636-41.

Deng, W., V. Burland, G. Plunkett, 3rd, A. Boutin, G. F. Mayhew, P. Liss, N. T. Perna, D. J. Rose, B. Mau, S. Zhou, D. C. Schwartz, J. D. Fetherston, L. E. Lindler, R. R. Brubaker, G. V. Plano, S. C. Straley, K. A.

McDonough, M. L. Nilles, J. S. Matson, F. R. Blattner, and R. D. Perry. 2002. Genome sequence of Yersinia pestis KIM. J Bacteriol 184:4601-11.

21. 22.

Eisen, J. A. 1998. A phylogenomic study of the MutS family of proteins. Nucleic Acids Res 26:4291-300. Eisenstein, E., G. L. Gilliland, O. Herzberg, J. Moult, J. Orban, R. J. Poljak, L. Banerjei, D. Richardson, and A. J. Howard. 2000. Biological function made crystal clear - annotation of hypothetical proteins via structural genomics. Curr Opin Biotechnol 11:25-30.

23. 24. 25.

Enserink, M. 1999. Groups race to sequence and identify New York virus. Science 286:206-7.

Enserink, M. 1999. New York's lethal virus came from Middle East, DNA suggests. Science 286:1450-1. Fleischmann, R. D., M. D. Adams, O. White, R. A. Clayton, E. F. Kirkness, A. R. Kerlavage, C. J. Bult, J. F. Tomb, B. A. Dougherty, J. M. Merrick, and et al. 1995. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 269:496-512.

26. 27. 28. 29. 30. 31. 32. 33. 34. 35.

Frishman, D., A. Mironov, H. W. Mewes, and M. Gelfand. 1998. Combining diverse evidence for gene recognition in completely sequenced bacterial genomes. Nucleic Acids Res 26:2941-7.

Galimand, M., A. Guiyoule, G. Gerbaud, B. Rasoamanana, S. Chanteau, E. Carniel, and P. Courvalin. 1997. Multidrug resistance in Yersinia pestis mediated by a transferable plasmid. N Engl J Med 337:677-80. Henikoff, J. G., E. A. Greene, S. Pietrokovski, and S. Henikoff. 2000. Increased coverage of protein families with the blocks database servers. Nucleic Acids Res 28:228-30.

Hirosawa, M., K. Ishikawa, T. Nagase, and O. Ohara. 2000. Detection of spurious interruptions of protein-coding regions in cloned cDNA sequences by GeneMark analysis. Genome Res 10:1333-41. Hofmann, K., P. Bucher, L. Falquet, and A. Bairoch. 1999. The PROSITE database, its status in 1999. Nucleic Acids Res 27:215-9.

Jaroff, L. 1999. Of mosquitoes, dead birds and epidemics. Time 154:74-5.

Jia, X. Y., T. Briese, I. Jordan, A. Rambaut, H. C. Chi, J. S. Mackenzie, R. A. Hall, J. Scherret, and W. I. Lipkin. 1999. Genetic analysis of West Nile New York 1999 encephalitis virus. Lancet 354:1971-2. Jones, D. T., W. R. Taylor, and J. M. Thornton. 1994. A model recognition approach to the prediction of all-helical membrane protein structure and topology. Biochemistry 33:3038-49.

Krogh, A., B. Larsson, G. von Heijne, and E. L. Sonnhammer. 2001. Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J Mol Biol 305:567-80. Lanciotti, R. S., J. T. Roehrig, V. Deubel, J. Smith, M. Parker, K. Steele, B. Crise, K. E. Volpe, M. B. Crabtree, J. H. Scherret, R. A. Hall, J. S. MacKenzie, C. B. Cropp, B. Panigrahy, E. Ostlund, B. Schmitt, M. Malkinson, C. Banet, J. Weissman, N. Komar, H. M. Savage, W. Stone, T. McNamara, and D. J. Gubler. 1999. Origin of the West Nile virus responsible for an outbreak of encephalitis in the northeastern United States. Science 286:2333-7.

36. 37. 38. 39. 40. 41.

Lukashin, A. V., and M. Borodovsky. 1998. GeneMark.hmm: new solutions for gene finding. Nucleic Acids Res 26:1107-15.

McIninch, J. D., W. S. Hayes, and M. Borodovsky. 1996. Applications of GeneMark in multispecies environments. Proc Int Conf Intell Syst Mol Biol 4:165-75.

Nielsen, H., J. Engelbrecht, S. Brunak, and v. G. Heijne. 1997. Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. Protein Engineering 10:1-6.

Nolen, R. S. 1999. Veterinarians key to discovering outbreak of exotic encephalitis. J Am Vet Med Assoc 215:1415, 1418-9.

Page, R. D., and M. A. Charleston. 1997. From gene to organismal phylogeny: reconciled trees and the gene tree/species tree problem. Mol Phylogenet Evol 7:231-40.

Parkhill, J., B. W. Wren, N. R. Thomson, R. W. Titball, M. T. Holden, M. B. Prentice, M. Sebaihia, K. D.

James, C. Churcher, K. L. Mungall, S. Baker, D. Basham, S. D. Bentley, K. Brooks, A. M.

Cerdeno-Tarraga, T. Chillingworth, A. Cronin, R. M. Davies, P. Davis, G. Dougan, T. Feltwell, N. Hamlin, S. Holroyd, K. Jagels, A. V. Karlyshev, S. Leather, S. Moule, P. C. Oyston, M. Quail, K. Rutherford, M. Simmonds, J. Skelton, K. Stevens, S. Whitehead, and B. G. Barrell. 2001. Genome sequence of Yersinia pestis, the causative agent of plague. Nature 413:523-7.

42. 43. 44.

Perry, R. D., and J. D. Fetherston. 1997. Yersinia pestis--etiologic agent of plague. Clin Microbiol Rev 10:35-66.

Persson, B., and P. Argos. 1997. Prediction of membrane protein topology utilizing multiple sequence alignments. J Protein Chem 16:453-7.

Read, D. T., L. S. Salzberg, M. Pop, M. Shumway, L. Umayam, L. Jiang, E. Holtzapple, D. J. Busch, L. K. Smith, M. J. Schupp, D. Solomon, P. Keim, and M. C. Fraser. 2002. Comparative genome sequencing for discovery of novel polymorphisms in Bacillus anthracis. Science 296:2028-2033.

45. 46. 47. 48. 49.

Rost, B., P. Fariselli, and R. Casadio. 1996. Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Sci 5:1704-18.

Salzberg, S. L., A. L. Delcher, S. Kasif, and O. White. 1998. Microbial gene identification using interpolated Markov models. Nucleic Acids Res 26:544-8.

Schultz, J., R. R. Copley, T. Doerks, C. P. Ponting, and P. Bork. 2000. SMART: a web-based tool for the study of genetically mobile domains. Nucleic Acids Res 28:231-4.

Shmatkov, A. M., A. A. Melikyan, F. L. Chernousko, and M. Borodovsky. 1999. Finding prokaryotic genes by the 'frame-by-frame' algorithm: targeting gene starts and overlapping genes. Bioinformatics 15:874-86. Skurnik, M., A. Peippo, and E. Ervela. 2000. Characterization of the O-antigen gene clusters of Yersinia pseudotuberculosis and the cryptic O-antigen gene cluster of Yersinia pestis shows that the plague bacillus is most closely related to and has evolved from Y. pseudotuberculosis serotype O:1b. Mol Microbiol 37:316-30.

50. 51. 52.

Smit, A. F. A., and P. Green. http://ftp.gennome.washington.edu/RM/RepeatMasker.html; RepeatMasker. Suzek, E. B., D. M. Ermolaeva, M. Schreiber, and S. L. Salzberg. 2001. A probabilistic method for identifying start codons in bacterial genomes. Bioinformatics 17:1123-1130.

Tatusov, L. R., A. D. Natele, V. I. Garkavtsev, A. T. Tatusova, T. U. Shankavaram, S. B. Rao, B. Kiryutin, Y. M. Galperin, D. N. Fedorova, and E. V. Koonin. 2001. The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res 29:22-28.

53. 54. 55.

Todd, M. L., and S. R. Eddy. 1997. tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res 25:955-964.

von Heijne, G. 1992. Membrane protein structure prediction. Hydrophobicity analysis and the positive-inside rule. J Mol Biol 225:487-94.

解涛, 陈洁, and 丁达夫. 1999. 基因组功能预测的进化印记法. 生化学与生物物理学报物 31:433-439.

童宗中周冬生

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读，免费范文网，提供经典小说综合文库基因组学分析在线全文阅读。

基因组学分析.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

本文链接：https://www.77cn.com.cn/wenku/zonghe/220669.html（转载请注明文章来源）

上一篇：电气仪表监理实施细则
下一篇：搅拌站基础技术交底