´óƬ¶ÎDNAÔØÌå¡£
BACÔØÌåÒѹ㷺ӦÓÃÓÚ»ùÒò×éÎÄ¿âµÄ¹¹½¨¼°É¸Ñ¡¡¢»ùÒò×é²âÐò¡¢Ð»ùÒòµÄ·¢ÏÖ¡¢¿Ë¡×÷ͼ¡¢BAC΢ÕóÁС¢×ª»ùÒòºÍ¶¯ÎïÆ·ÖÖ×ÊÔ´±£´æµÈ·½Ãæ¡£ 4 ÈçºÎ×齨¿ËÂ¡ÖØµþȺ£¿
ȾɫÌå²½ÒÆ·¨£¨chromosomal walking£©£ºÏÈ´Ó»ùÒòÎÄ¿âµÄÒ»¸ö¿Ë¡¿ªÊ¼£¬È»ºó´ÓÎÄ¿âÖÐѰÕÒÓëÖ®ÖØµþµÄµÚ¶þ¸ö¿Ë¡£¬ÔÙ¼ÌÐøÈ·¶¨µÚÈý¸ö¿Ë¡£¬ÒÀ´ÎÀàÍÆ¡£ ¿ËÂ¡Ö¸ÎÆ·¨£ºÖ¸ÎÆÊÇָȷ¶¨DNAÑùÆ·Ëù¾ßÓеÄÌØ¶¨DNAƬ¶Î×é³É£¬Ò»¸ö¿Ë¡µÄÖ¸ÎÆ±íʾÁ˸ÿË¡Ëù¾ßÓеÄÖ¸¶¨ÐòÁеÄÌØÕ÷£¬¿ÉÒÔͬÆäËû¿Ë¡²úÉúµÄͬÀàÖ¸ÎÆ±È½Ï¡£¿ËÂ¡Ö¸ÎÆ·¨µÄÔÀíÊÇ£¬Èç¹û2¸ö¿Ë¡±Ë´ËÖØµþ£¬ËüÃÇÒ»¶¨º¬ÓÐÏàͬµÄ˳Ðò¡£
Îå Sanger²âÐòÔÀíÓë×é×°
1 SangerË«ÍÑÑõÄ©¶ËÖÕÖ¹·¨µÄÔÀí
ºËËáÄ£°åÔÚºËËá¾ÛºÏø¡¢ÒýÎï¡¢ËÄÖÖµ¥ÍÑÑõ¼î»ù´æÔÚÌõ¼þϸ´ÖÆ»òת¼ʱ£¬Èç¹ûÔÚËĹܷ´Ó¦ÏµÍ³Öзֱ𰴱ÈÀýÒýÈëËÄÖÖË«ÍÑÑõ¼î»ù£¬Ö»ÒªË«ÍÑÑõ¼î»ù²ôÈëÁ´¶Ë£¬¸ÃÁ´¾ÍÍ£Ö¹ÑÓ³¤£¬Á´¶Ë²ôÈëµ¥ÍÑÑõ¼î»ùµÄƬ¶Î¿É¼ÌÐøÑÓ³¤¡£Èç´Ëÿ¹Ü·´Ó¦ÌåϵÖбãºÏ³ÉÒÔ¹²Í¬ÒýÎïΪ5¡¯¶Ë£¬ÒÔË«ÍÑÑõ¼î»ùΪ3¡¯¶ËµÄһϵÁг¤¶È²»µÈµÄºËËáÆ¬¶Î¡£·´Ó¦ÖÕÖ¹ºó£¬·ÖËĸöÓ¾µÀ½øÐеçÓ¾¡£ÒÔ·ÖÀ볤¶Ì²»Ò»µÄºËËáÆ¬¶Î£¨³¤¶ÈÏàÁÚÕß½ö²îÒ»¸ö¼î»ù£©£¬¸ù¾ÝƬ¶Î3¡¯¶ËµÄË«ÍÑÑõ¼î»ù£¬±ã¿ÉÒÀ´ÎÔĶÁºÏ³ÉƬ¶ÎµÄ¼î»ùÅÅÁÐ˳Ðò¡£
2 »ùÒò×é¿ò¼Üͼ¡¢Íê³Éͼ
¿ò¼ÜͼÄܸ²¸Ç»ùÒò×鳣ȾɫÌåÇøÓò90%£¬¸²¸Ç»ùÒòÇøÓò95%£¬contig N50´ïµ½5 kb£¬scaffold N50´ïµ½20 kb£¬µ¥¼î»ù´íÎóÂÊÔÚÊ®Íò·ÖÖ®Ò»ÒÔÏ¡£
Íê³ÉͼÄܸ²¸Ç»ùÒò×鳣ȾɫÌåÇøÓò95%£¬¸²¸Ç»ùÒòÇøÓò98%£¬contig N50´ïµ½
20 kb£¬scaffold N50´ïµ½300 kb£¬µ¥¼î»ù´íÎóÂÊÔÚÊ®Íò·ÖÖ®Ò»ÒÔÏ¡£ 3 Phred-Phrap-Consed Èí¼þ°üÖи÷Èí¼þµÄ×÷ÓÃ
PhredÖ´ÐÐÈçÏÂÈÎÎñ£º¶ÁtraceÎļþ£¬µ÷ÓÃbases£¬·ÖÅäÊôÐÔÖµµ½bases£¬Éú³ÉÊä³öÎļþ£»Phrap×é×°Äñǹ·¨DNAÐòÁÐÊý¾Ý£»Consedä¯ÀÀºÍ±à¼Phrap×é×°²úÎï¡£ 4 lander-waterman model ¼°ÆäÔÀí
Ò»¶ÎÐòÁÐûÓб»¸²¸ÇµÄ¸ÅÂÊP0=e-£¨LN/G£©»òÕßP0=e-c£»
LƬ¶ÎµÄ³¤¶È£¬N×ܵÄÐòÁÐÊýÁ¿£¬G×ܳ¤¶È£¬LN/GÒ»¸ö¼î»ù±»¸²¸ÇµÄƽ¾ù´ÎÊý£¬P0ÊÇÖ¸ÔÚÆ½¾ù´ÎÊýΪLN/GµÄÇé¿öÏÂÕâ¸ö¼î»ùÒ»´ÎûÓб»¸²¸ÇµÄ¸ÅÂÊ£¬1-P0¼´¿É¼ÆËã³öÒ»¸ö¼î»ù±»¸²¸ÇµÄ¸ÅÂÊ¡£Áîc=LN/G£¬¼ÆËãijһµã²»Äܱ»²âÐòµÄ¸ÅÂÊP0= e-c£¬×ܵÄgapµÄ³¤¶È=G e-c£¬×ܵÄgapµÄÊýÁ¿=N e-c¡£ 5 Pair-end reads, Mate-pair reads, Contig, Scaffold, N50 size Reads£ºpair-end reads »ùÓÚÐòÁÐÎÄ¿â¿Ë¡Á½¶ËµÄÐòÁжÁ¿ò£»
mate-pair reads »ùÓÚ²åÈëÆ¬¶Î´óÓÚmate-pairÎÄ¿â¿Ë¡Á½¶ËµÄÐòÁжÁ¿ò£» Contig(ÖØµþȺ)£ºÖ¸Ï໥¼ä´æÔÚÖØµþ˳ÐòµÄÒ»×é¿Ë¡£» Scoffold£ºÁ¬½Ó·ÇÖØµþµÄÖØµþȺ£»
N50£ºReadsÆ´½Óºó»á»ñµÃһЩ²»Í¬³¤¶ÈµÄContigs¡£½«ËùÓеÄContig³¤¶ÈÏà¼Ó£¬ÄÜ»ñµÃÒ»¸öContig×ܳ¤¶È¡£È»ºó½«ËùÓеÄContigs°´ÕÕ´Ó³¤µ½¶Ì½øÐÐÅÅÐò£¬Èç»ñµÃContig 1£¬Contig 2£¬Contig 3...¡¡¡Contig 25¡£½«Contig°´ÕÕÕâ¸ö˳ÐòÒÀ´ÎÏà¼Ó£¬µ±Ïà¼ÓµÄ³¤¶È´ïµ½Contig×ܳ¤¶ÈµÄÒ»°ëʱ£¬×îºóÒ»¸ö¼ÓÉϵÄContig³¤¶È¼´ÎªContig N50¡£
Áù ¶þ´ú²âÐòÔÀíÓë×é×°
1 454²âÐòÒǵÄPyrosequencingÔÀí
½¹Á×Ëá²âÐò(Pyrosequencing) ÔÀí½¨Á¢µÄ¸ßͨÁ¿»ùÒò×é²âÐòϵͳ£¬ÒÀ¿¿ÉúÎï·¢¹â½øÐÐDNAÐòÁзÖÎöµÄ¼¼Êõ£ºÔÚ¶àÖÖøµÄÐͬ×÷ÓÃÏ£¬µ±¼î»ùÕýÈ·Åä¶Ôʱ£¬·¢ÉúÒ»¸öºÏ³É·´Ó¦ºÍÒ»¸ö»¯Ñ§·¢¹â·´Ó¦µÄżÁª£¬ÊͷŹâÐźš£¹âÐźÅʵʱ±»¸ßÁéÃô¶ÈCCD²¶»ñ£¬×îÖÕ´ïµ½²âÐòµÄÄ¿µÄ¡£
¾ßÌå²½ÖèÊÇ£º¢Ù²âÐòÒýÎïÓëDNAµ¥Á´ÔÓ½»£»¢ÚÔÚDNA¾ÛºÏø´ß»¯Ï£¬dNTPsÔÚÒýÎï3¡¯¶Ë¾ÛºÏ²¢ÑÓ³¤£»¢ÛATPÁòËữø´ß»¯PPiºÍAPSÉú³ÉATP£»¢ÜÓ«¹âËØÃ¸´ß»¯ATPÑõ»¯Ó«¹âËØu£»¢Ý¼ì²â¹âÐźţ»¢ÞÏÙÜÕÈýÁ×ËáË«Á×Ëáø´ß»¯ATPºÍdNTPÈ¥Á×Ë᣻×îºóͨ¹ý¹âÐźżì²â¼ÆËãµÃ³ö¶ÔÓ¦µÄºËËáÀàÐÍ¡£ 2 Illumina GA/HiSeq System µÄÇÅʽÀ©Ôö
¡°DNA´Ø¡±ºÍ¡°¿ÉÄæÐÔÄ©¶ËÖսᣨreversible terminator£©¡±
¢Ù ÎÄ¿âÖÆ±¸ ½«»ùÒò×éDNA´ò³É¼¸°Ù¸ö¼î»ù£¨»ò¸ü¶Ì£©µÄСƬ¶Î£¬ÔÚÆ¬¶ÎµÄÁ½¸öÄ©¶Ë¼ÓÉϽÓÍ·(adapter)¡£
¢Ú ²úÉúDNA´ØÀûÓÃרÀûµÄоƬ£¬Æä±íÃæÁ¬½ÓÓÐÒ»²ãµ¥Á´ÒýÎDNAƬ¶Î±ä³Éµ¥Á´ºóͨ¹ýÓëоƬ±íÃæµÄÒýÎï¼î»ù»¥²¹±»Ò»¶Ë¡°¹Ì¶¨¡±ÔÚоƬÉÏ¡£ÁíÍâÒ»¶Ë£¨5¡¯»ò3¡¯£©Ëæ»úºÍ¸½½üµÄÁíÍâÒ»¸öÒýÎﻥ²¹£¬Ò²±»¡°¹Ì¶¨¡±×¡£¬Ðγɡ°ÇÅ (bridge) ¡°¡£·´¸´30ÂÖÀ©Ôö£¬Ã¿¸öµ¥·Ö×ӵõ½ÁË1000±¶À©Ôö£¬³ÉΪµ¥¿Ë¡DNA´Ø¡£DNA´Ø²úÉúÖ®ºó£¬À©Ôö×Ó±»ÏßÐÔ»¯£¬²âÐòÒýÎïËæºóÔÓ½»ÔÚÄ¿±êÇøÓòÒ»²àµÄͨÓÃÐòÁÐÉÏ¡£ ¢Û ²âÐò Genome AnalyzerϵͳӦÓÃÁ˱ߺϳɱ߲âÐò£¨Sequencing By Synthesis£©µÄÔÀí¡£¼ÓÈë¸ÄÔì¹ýµÄDNA¾ÛºÏøºÍ´øÓÐ4ÖÖÓ«¹â±ê¼ÇµÄdNTP¡£ ÕâЩºËÜÕËáÊÇ¡°¿ÉÄæÖÕÖ¹×Ó¡±£¬ÒòΪ3¡¯ôÇ»ùÄ©¶Ë´øÓпɻ¯Ñ§ÇиîµÄ²¿·Ö£¬ËüÖ»ÈÝÐíÿ¸öÑ»·²ôÈëµ¥¸ö¼î»ù¡£´Ëʱ£¬Óü¤¹âɨÃè·´Ó¦°å±íÃæ£¬¶ÁȡÿÌõÄ£°åÐòÁеÚÒ»ÂÖ·´Ó¦Ëù¾ÛºÏÉÏÈ¥µÄºËÜÕËáÖÖÀà¡£Ö®ºó£¬½«ÕâЩ»ùÍÅ»¯Ñ§Çи»Ö¸´3'¶ËÕ³ÐÔ£¬¼ÌÐø¾ÛºÏµÚ¶þ¸öºËÜÕËá¡£Èç´Ë¼ÌÐøÏÂÈ¥£¬Ö±µ½Ã¿ÌõÄ£°åÐòÁж¼ÍêÈ«±»¾ÛºÏΪ˫Á´¡£ÕâÑù£¬Í³¼ÆÃ¿ÂÖÊÕ¼¯µ½µÄÓ«¹âÐźŽá¹û£¬¾Í¿ÉÒÔµÃ֪ÿ¸öÄ£°åDNAƬ¶ÎµÄÐòÁС£Ä¿Ç°µÄÅä¶ÔÄ©¶Ë¶Á³¤¿É´ïµ½2¡Á50 bp£¬¸ü³¤µÄ¶Á³¤Ò²ÄÜʵÏÖ£¬µ«´íÎóÂÊ»áÔö¸ß¡£¶Á³¤»áÊܵ½¶à¸öÒýÆðÐźÅË¥¼õµÄÒòËØËùÓ°Ï죬ÈçÓ«¹â±ê¼ÇµÄ²»ÍêÈ«Çи ¢Ü Êý¾Ý·ÖÎö ×Ô¶¯¶ÁÈ¡¼î»ù£¬Êý¾Ý±»×ªÒƵ½×Ô¶¯·ÖÎöͨµÀ½øÐжþ´Î·ÖÎö¡£
¢Ù ÿÂÖ²âÐò·´Ó¦¼ÓÈëËÄÖÖ´øÓÐÓ«¹â±ê¼ÇµÄdNTP£¬Ä©¶Ë´øÓпÉÒÔ±»È¥³ýµÄ×è¶Ï»ùÍÅ£»
¢Ú ÿÂÖ·´Ó¦Ö»ÄÜÕûºÏÒ»¸öºËÜÕËᣬÒÇÆ÷¶ÁÈ¡ÏàÓ¦µÄÓ«¹âÐźţ» ¢Û ÐźŶÁÈ¡½áÊø£¬Óû¯Ñ§·½·¨È¥³ý×è¶Ï»ùÍÅ£¬½øÐÐÏÂÒ»ÂÖ²âÐò·´Ó¦¡£ 3 454 GS FLX¡¢Hiseq-2000 ÓëSOLID 5 ²âÐòÒǸ÷ÓÐʲôÓÅȱµã
454 GS FLXÊǽ¹Á×Ëá²âÐò£¬Hiseq-2000ÊǺϳɷ¨²âÐò£¬SOLID 5ÊÇÁ¬½Ó·¨²âÐò£» ¶Á³¤£º454 GS FLX> Hiseq-2000> SOLID 5£» ReadsÊý£º SOLID 5> Hiseq-2000>454 GS FLX£»
Ó¦Óãº454 GS FLX¶Á³¤×£¬±ãÓÚÆ´½Ó£¬Òò´ËÔÚde novo²âÐò·½ÃæÓкܴóÓÅÊÆ£»SOLID 5ËäÈ»¶Á³¤ºÜ¶Ì£¬µ«ÊÇReadsÊý×î¶à£¬¶øÇÒABI¶ÀÓеÄ˫ɫÇò±àÂë¼¼Êõ£¬Ê¹µÃÿ¸ö¼î»ù¶¼»á±»¶ÁÈ¡Á½±é£¬×¼È·Âʺܸߣ¬Òò´ËSOLID 5ÔÚ¼ì²âSNP¡¢×ªÂ¼×é²âÐò¡¢ChIP-SeqµÈ·½ÃæºÜÓÐÓÅÊÆ£»Hiseq-2000µÄ¶Á³¤ºÍReadsÊý¾ùλÓÚÖм䣬±È½ÏÊʺÏÓÚ»ùÒò×éѧÑо¿£¨²âÐòºÍ×¢ÊÍ£©ÒÔ¼°¹¦ÄÜ»ùÒò×éѧ£¨»ùÒò±í´ï¼°µ÷¿Ø£¬»ùÒò¹¦ÄÜ£¬µ°°×ºËËáÏ໥×÷Óã©Ñо¿¡£
Æß ²âÐòÊý¾ÝÆÀ¹À
1 Phred 20¡¢40´ú±íʲôÒâ˼
PhredÊýÖµ20´ú±í100bpÖÐÓÐÒ»¸ö´íÎó¡£PhredÊýÖµ40´ú±í10000bpÖÐÓÐÒ» ¸ö´íÎó¡£
PhredЧ¹ûÆÀ¹ÀµÄ·½³ÌÊÇq = -10 x log10 (p)£¬q -quality value£¨ÖÊÁ¿ÆÀ¼Û£©p -estimated probability error for a base call£¨²úÉúÒ»¸öbase callÎó²îµÄ¸ÅÂÊ£© q= 20 means p=10-2(1 error in 100 bases) q= 40 means p=10-4 (1 error in 10,000 bases)
2 Fastq ÊÇʲô¸ñʽ
°Ù¶ÈËÑË÷¡°77cn¡±»ò¡°Ãâ·Ñ·¶ÎÄÍø¡±¼´¿ÉÕÒµ½±¾Õ¾Ãâ·ÑÔĶÁÈ«²¿·¶ÎÄ¡£Êղر¾Õ¾·½±ãÏ´ÎÔĶÁ£¬Ãâ·Ñ·¶ÎÄÍø£¬Ìṩ¾µäС˵×ÛºÏÎÄ¿â2014-»ùÒò×éѧ - ×îÖÕ°æ - ͼÎÄ(2)ÔÚÏßÈ«ÎÄÔĶÁ¡£
Ïà¹ØÍÆ¼ö£º