Sekveneerimine

Allikas: Vikipeedia

Sekveneerimine ehk järjestusanalüüs (inglise sequencing) on monomeeride (nukleotiidide, aminohapete) järjestuse kindlaksmääramine informatsiooniliste biopolümeeride (DNA, RNA, valkude) molekulides.

Sekveneerimine annab tulemuseks märkidest koosneva tõlgenduse, mida nimetatakse sekventsiks, ja kirjeldab suuremat osa sekveneeritud molekulist. „Suuremat osa“ kirjeldab ta sellepärast, et sekveneerimismeetodid ei ole täiuslikud. Näiteks DNAd sekveneerides antakse järjestus nelja erineva nukleiinhappejäägi jadana (lühendatult A, T, C, G), kuid rakus endas võivad need olla modifitseeritud ehk sekveneerimisel tulemuseks saadud A ei pruugi olla sama rakus päriselt oleva monomeeriga. Samuti annab sekveneerimine tulemuseks polümeeri järjestuse, kuid ruumiline struktuur tuleb leida teiste meetodite abil ja see võib olla vägagi keeruline. Sekveneerimine on tänapäeva bioteaduste alal üks vajalikemaid tehnikaid, ilma selleta oleks pea võimatu koostada evolutsioonipuid, arendada välja ravimeid, mis sihiksid kindlaid mehhanisme, isegi teada neid mehhanisme, sest kõige selle jaoks oli vähemalt mingis etapis kasutatud biomolekulide sekveneerimist.

Sekveneerimise tähtsamad verstapostid[muuda | redigeeri lähteteksti]

1943. aastal näitasid Oswald Avery, Colin MacLeod ja Maclin McCarty, et DNA kannab pärilikkuse informatsiooni.[1]

1951. aastal tegi Frederick Sanger kindlaks veise insuliini aminohappelise järjestuse.[2]

1953. aastal avaldasid James D. Watson ja Francis Crick artikli DNA kaksikheeliksmudeli kohta.[3]

1957. aastal sõnastas F. Crick molekulaarbioloogia põhidogma.[4]

1965. aastal suudeti sekveneerida 77-nukleotiidiline lõik seene tRNAst (Robert W. Holley grupp).

1977. aastal avaldasid Allan Maxam ja Walter Gilbert artikli „DNA sequencing by chemical degradation“ (DNA sekveneerimine keemilise degradatsiooni abil),[5] Frederick Sanger tuli samal ajal välja enda meetodiga, DNA sekveneerimine ahela terminatsiooni abil.[6]

1984. aastal dešifreerisid Medical Research Counsili teadlased Epstein-Barri viiruse kogu genoomi (170 kb)[7]

1987. aastal tuli Applied Biosystems turule esimese automatiseeritud sekvenaatoriga, mudel ABI 370.

1990. aastal alustati projektiga sekveneerimaks inimese genoomi (Human Genome Project HGP).[7]

1996. aastal leiutasid Pål Nyrén ja Mostafa Ronaghi pürosekveneerimise.[8]

1998 alustas Celera Genomics enda projektiga sekveneerimaks inimese genoomi.

2000. aastal tuli Lynx Therapeutics välja esimese, kuid kohmaka järgmise põlvkonna sekvenaatoriga.[9]

2001. aastal avaldasid nii Human Genome Project kui ka Celera enda esialgsed genoomid.[10][11]

2004. aastal tuli 454 Life Sciences välja pürosekveneerimisel põhineva järgmise põlvkonna sekvenaatoriga, mis vähendas sekveneerimishindu automatiseeritud Sangeri sekvenaatoriga võrreldes kuuekordselt.[12]

DNA sekveneerimine[muuda | redigeeri lähteteksti]

DNA sekveneerimiseks kutsutakse DNA molekuli primaarse struktuuri nukleotiidse järjestuse määramist. Hiljutise ajani on sekveneerimisel rohkem kasutatud ahela terminatsiooni ehk Sangeri meetodit (inglise keeles chain termination method või Sanger sequencing), mille arendasid välja Frederick Sanger ja Alan Coulson 1970ndate teisel poolel.[6] Samaaegselt tulid oma sekveneerimise taktikaga välja ka ameeriklased Allan Maxam ja Walter Gilbert, kuid nende meetod kaotas oma populaarsuse, kuna Sangeri meetodit sai kergemini automatiseerida ja ohtlikke reagente kasutati märgatavalt vähem. Tänapäeval tuleb suurem osa sekveneerimisandmetest „järgmise põlvkonna sekveneerimise“ (inglise keeles NGS e Next Generation Sequencing) platvormidelt, mille tehnoloogiad on erinevate korporatsioonide patentidega kaitstud ja seetõttu üksteistest erinevad. Enamiku NGS tehnoloogiate ühiseks omaduseks on see, et pinnal paigal olevate DNA juppide (inglise keeles template) alusel sünteesitakse komplementaarne vastasahel, mida tehes registreeritakse iga lisatud nukleotiidi korral kiirgus või keemiline signaal. Üleüldiselt iseloomustab sääraseid tehnikaid „sünteesi abil sekveneerimine“ (inglise keeles sequencing by synthesis). DNA järjestus hoiab endas vajalikku informatsiooni, mis laseb elusorganismidel ellu jääda ja paljuneda. Seetõttu on DNA järjestuse teadmine oluline nii baasteadustes kui rakendusteadustes. DNA sekveneerimise tähtsust suurendab ka see, et seda leidub kõigis elusorganismides, tehes selle kasutatavaks põhimõtteliselt kõikidel bioloogia aladel. Näiteks meditsiinis saab seda kasutada haiguste identifitseerimiseks ja potentsiaalselt ka ravi väljatöötamiseks erinevatele geneetilistele haigustele. Sama käib ka erinevate patogeenide kohta.

Sangeri sekveneerimine[muuda | redigeeri lähteteksti]

Vasakul sekvents geeliradadel, paremal sekvenaatorist tulnud pilt

Sangeri sekveneerimise ehk ahela termineerimise metoodika oli 1980ndatest alates põhiline DNA sekveneerimise meetod (laialdane kasutus tänapäevalgi).[13] Järgmise põlvkonna sekveneerimistehnoloogiad on hakanud eelmise kümnendi keskpaigast alates sekveneerimist enda peale võtma ja enamik sekveneerimise informatsioonist tuleb tänapäeval sealt. Sellegipoolest ei tasuks alahinnata selle meetodi panust bioteadustesse. Suurem osa eri liikide genoome, mis sekveneeriti enne järgmise põlvkonna sekvenaatorite ajastut (sealhulgas ka inimese oma), sekveneeriti selle sama metoodika abil. Lisaks kasutati Sangeri sekveneerimist ka teiste biopolümeeride, valkude ja RNA, kaudseks sekveneerimiseks, sest nende sekveneerimine otse on keerukam.

Ahela terminatsiooni meetod vajab üheahelalist DNAd, DNA praimerit, polümeraasi, vastavaid desoksüribonukleotiidtrifosfaate (dNTP) ja modifitseeritud nukleotiide (didesoksüNTP-d e. ddNTP), millel puuduvad sünteesi jätkamiseks vajalikud 3’-OH rühmad.Kõigepealt liituvad DNA praimerid DNA maatriksmolekuliga täpselt samast kohast, siis seondub sinna DNA polümeraas. Edasine põhimõte seisneb algsele üheahelalisele DNA molekulile komplementaarse vastasahela sünteesis sel moel, et vastasahela süntees katkeks juhuslikul hetkel, kuid kindlat tüüpi nukleotiidi (kas siis A, T, C või G) juures. Algselt saavutati see, viies vastasahela süntees läbi neljas eri reaktsiooninõus, kus igas nõus asus vaid ühte tüüpi ddNTPd. Kuna igas nõus on korraga väga palju samasuguseid DNA maatriksmolekule, tekib ddNTPde juhuslikul ahelasse liitumisel suur kogus erinevate pikkustega DNA ahelaid, mis lõppevad kindla nukleotiidiga. Need ahelad tuleb siis panna kõrge lahutusvõimega geelile, iga reaktsioonitüüp eri rajale ja sealt lahutuvad nad pikkuse alusel kindlasse järjekorda. Nelja rada korraga vaadates saab DNA järjestuse kindlaks teha. Automatiseeritud masinates kasutatakse reaktsioonisegus nelja eri ddNTPd korraga, iga ddNTP eri värviga flourestsentseeruvalt märgistatud. Tänu sellele ei ole vajadust reaktsiooni neljas eri nõus läbi viia ja ka geelil, mis asub masinates kapillaari sees, piisab ühest ainsast rajast, et järjestus edukalt välja lugeda. ddNTP (varem märgistati ka praimereid ning dNTP-sid) märgistatakse kas fluorestsentselt või radioaktiivselt , et hiljem eri nukleotiididel vahet teha. Siis viiakse nende koostisosade abil läbi DNA vastasahela süntees, mis mingil hetkel lülitab endasse ka ddNTP, mille peale ahela süntees lõppeb. Peale seda denatureeritakse reaktsioonisegu ja sünteesitud eri pikkustega DNA ahelad liiguvad geelil eri kiirusega, ja on seetõttu eristatavad. Algupärases meetodis pandi iga ddNTP-ga tehtud reaktsioon polüakrüül-uurea geeli eri rajale ja saadi selle kaudu sekvents teada, kuid tänapäeval saab eri lainepikkusega fluorestseeruva ddNTP kaudu teha neil vahet ka läbi ühe raja jooksutades. Automatiseeritud masinates on see rada kapillaari sees, mis jookseb mõõteandurite eest läbi, andes sellega järjestuse.

Järgmise põlvkonna sekveneerimine[muuda | redigeeri lähteteksti]

Kuigi Inimese genoomi projekt (HPG) oli edukas, olid selle kulud väga suured: projekti pikkus 13 aastat ja hinnaks üle 3 miljardi dollari.[14] Kuna vajadus ülegenoomsete andmete järele oli väga suur, tuli välja tulla uute ja odavamate viisidega, kuidas sama ülesandega hakkama saada. Õige suuna näitas kätte Lynx Therapeuticsi RNA sekvenaator. Sellel tehnikal oli küllaldaselt vigu, näiteks lühikesed readide pikkused (17–20 aluspaari), kuid massiivse paralleelse sekveneerimise põhimõttel oli potentsiaal ühe sekveneerimisega genereerida üüratul hulgal andmeid. Esimesena tulid enda NGS platvormiga välja Jonathan Rothbergi asutatud 454 Corporation (aastal 2004). Samal ajal töötasid S. Balasubramanian ja D. Klenerman välja enda sekveneerimistehnoloogiat ja asutasid firma Solexa. Nende sekvenaator oli esimene instrument, mis oli võimeline genereerima 1 GB andmeid ühe jooksuga. Esialgsed readid olid aga kõigest 26 aluspaari pikad, kuid nende tehnoloogias oli potentsiaali ja aastal 2007 maksis Illumina tehnoloogia eest 600 miljonit USA dollarit. George Church ja tema kolleegid tulid 2005 välja enda sekveneerimistaktikaga, mille ostis ära Applied Biosystems. Need kolm firmat on haaranud suurema osa teise põlvkonna sekvenaatorite tootmise turust ja esialgsed seadmete andmetootmismahud on suurenenud sadu kordi.[14]

Erinevates teise põlvkonna sekveneerimisplatvormides kasutatakse erinevaid, üksteisele järgnevaid tehnikaid, kuid neid saab sarnasuste abil koondada järgnevalt: maatritsi (inglise keeles template) valmistamine, sekveneerimine ja signaali lugemine.[13]

Alguses tuleb valmistada raamatukogu (inglise keeles library), mis kujutab endast ühtlase pikkusega adapteritega DNA juppe. Siis tuleb raamatukogu jupid seondada pinnale, millelt hilisem sekventsi väljalugemine toimub, ning enamikul platvormidel toimub selles kohas ka kohalik PCR võimendus. Illumina puhul näeb see protsess välja nii, et raamatukogu üksik molekul seondub kiibile kusagile suvalisele kohale, mis asub teistest raamatukogu molekulidest suhteliselt kaugel ja sinna moodustub spetsiaalse PCR lahenduse kaudu tihe grupp samu molekule.[15][13] Sealt edasi toimub kõikidel platvormidel erinev, kuid põhimõttelt mingisugust sünteesireaktsiooni kasutav vastasahela süntees, kus iga uue nukleotiidi või oligomeeri lisandumisel registreeritakse mingisugune signaal (enamasti kindla lainepikkusega valgus). Kuigi kiipidele paigutumine oli algselt juhuslik, ei muutu maatriksahela asukoht ja seade on võimeline järjestama samast asukohast pärit olevaid signaale readiks. Siit tulebki NGS platvormide suur eelis Sangeri sekvenaatorite ees, sest kuigi Sangeri sekvenaatorid genereerivad enamasti pikemaid reade, ei ole võimalik paigutada nii paljusid kapillaare paralleelselt, kui seda NGS platvormid suudavad. Näiteks loeb Illumina võimsaim masin järjestusi ühelt kiibilt (flow cell) paralleelselt 3 miljardist positsioonist.[16] NGS sekvenaatoritest tulevad toorandmed koosnevad suhteliselt lühikestest juppidest, olenevalt platvormist on keskmised readid mõnikümmend kuni 700 aluspaari pikad.[13] Inimese puhul oleks sääraste juppide osalise kattuvuse abil gnoomi koostamine tarbetult arvutusvõimsust kulutav operatsioon. Selle asemel võrreldakse neid juppe juba teada oleva genoomiga ja kaardistatakse need jupid sinna. Kogu protsess nõuab arvutitelt sellegipoolest väga palju ja tänapäeval on nende tehnoloogiate viga juba selles, et arvutusvõimsus ei kasva nii kiiresti, nagu kasvab andmete tekitamispotentsiaal.

RNA sekveneerimine[muuda | redigeeri lähteteksti]

RNA on sünteesitud DNA ahela pealt, kuid DNA sekveneerimine ei anna vastust selle kohta, missuguseid geene antud hetkel uuritavas koes/rakus ekspresseeritakse ja kuidas seda RNAd töödeldud on (vajalik näteks vähiuuringutes). Selle jaoks läheb vaja sekveneerida ka RNAd. Kuna RNA ei säili tavakeskkonnas nii hästi ja DNA jaoks on sekveneerimine juba välja töötatud, seisneb RNA sekveneerimine uurimise all oleva RNA rikastatud proovilt cDNA (komplementaarne DNA) sünteesis ja siis selle sekveneerimises DNA sekvenaatoritega. RNA sekveneerimine erineb DNA sekveneerimisest suuremalt jaolt vaid raamatukogu valmistamises ja andmete analüüsis. Siin on erandiks Helicos Biosciences, kes arendab välja DRSTM (inglise keeles single molecule direct RNA sequencing) platvormi.

RNA sekveneerimiseks tuleb kõigepealt rikastada eraldatud RNAd uuritavate molekulide suhtes. Kogu transkriptoomi shotgun sequencing (RNA-Seq) puhul tähendaks see ribosomaalsest RNA-st lahti saamist, kuna see moodustab väga suure enamiku kogu transkribeeritavast RNAst. Levinuim viis selle tegemiseks on magneetiliste helmestega mRNA polüA saba pidi seondumine ja siis ülejäänud RNA välja pesemine. Sellele järgneb cDNA süntees ja fragmenteerimine soovitud pikkusega juppideks, ning pärast seda tuleb raamatukogu töödelda vastavalt uurimuse ja platvormi vajadustele. Hilisem andmeanalüüs on tihtipeale veelgi rohkem arvuteid koormav kui DNA sekveneerimistel, kuna mitte kõiki reade ei saa kaardistada referentsandmebaasidele ja mõnikord on vajalik de novo joondamine.[17][18]

Valkude sekveneerimine[muuda | redigeeri lähteteksti]

Kui geen, mis kodeerib uuritavat valku, on teada, siis on palju lihtsam sekveneerida selle geeni DNA või mRNA ning sealt lugeda välja valgu aminohappeline järjestus. Et teada, mis geeni produkt see on, tuleb sekveneerida valgust lühike jupp (nt 15 aminohapet) ja kasutada seda infot, et luua komplementaarne marker valgu RNAle. Seda kasutades tuleb isoleerida vastav mRNA, mida siis omakorda sekveneerida. Muidugi tuleb arvestada võimalusega, et peale translatsiooni muudetakse valgu järjestust ja seetõttu on mõnikord siiski vajalik sekveneerida valku otse. Otseseks valkude sekveneerimiseks on kaheks valitsevaks meetodiks massispektromeetria ja Edmani degradatsioon.

Automatiseeritud Edmani sekvenaatorid töötavad järgnevalt:

  1. Keemilisel teel valgu denatureerimine
  2. Kompleksvalgu puhul valgu eri ahelate eraldamine ja puhastus
  3. Eri aminohapete suhte määramine iga ahela jaoks eraldi
  4. Iga ahela jaoks terminaalsete aminohapete määramine
  5. Ahelate lühikesteks juppideks lagundamine (maksimaalselt 50 AH, sest Edmani degratsioon ei suuda pikemaid polüpeptiide sekveneerida)
  6. Fragmentide üksteisest eraldamine
  7. Nende juppide aminohape-haaval tükkideks lagundamine ja iga aminohappe määramine ehk sekveneerimine ise.
  8. Kogu jada kordamine teistsuguse lõikemustri korral

Massispektromeetria puhul seeditakse endoproteaasi teel proteiin tükkideks ja need tükid lastakse läbi kõrgsurve vedelkromatograafia kolonni. Peptiidid pihustatakse kohe peale kolonnist väljumist läbi tugeva positiivse pingega otsiku spektromeetrisse, kus laeng lahutab tilgad väikesteks fragmentideks, kuni iga tilk on vaid üksik ioon ja läbi elektromagneetilise välja liikudes eralduvad need laengu/massi suhte järgi detektori eri positsioonidele. Seda protsessi korratakse erinevate seedeensüümidega ja lõplik järjestus üritatakse selle põhjal välja arvutada.[19]

Viited[muuda | redigeeri lähteteksti]

  1. Avery O, MacLeod C, McCarty M (1944). "Studies on the chemical nature of the substance inducing transformation of pneumococcal types : induction of transformation by a desoxyribonucleic acid fraction isolated from pneumococcus type III". J Exp Med 79 (2): 137–158. doi:10.1084/jem.79.2.137. PMID 19871359. 
  2. Sanger & Tuppy 1951a; Sanger & Tuppy 1951b; Sanger & Thompson 1953a; Sanger & Thompson 1953b
  3. Watson J.D. and Crick F.H.C. (1953). "A Structure for Deoxyribose Nucleic Acid" (PDF). Nature 171 (4356): 737–738. doi:10.1038/171737a0. PMID 13054692. Bibcode1953Natur.171..737W. 
  4. Crick, F.H.C. On degenerate templates and the adaptor hypothesis (PDF). genome.wellcome.ac.uk (Lecture, 1955). Retrieved 22 December 2006.
  5. Maxam AM, Gilbert W (February 1977). "A new method for sequencing DNA". Proc. Natl. Acad. Sci. U.S.A. 74 (2): 560–4. doi:10.1073/pnas.74.2.560. PMID 265521. Bibcode1977PNAS...74..560M. 
  6. 6,0 6,1 Sanger F, Nicklen S, Coulson AR (December 1977). "DNA sequencing with chain-terminating inhibitors". Proc. Natl. Acad. Sci. U.S.A. 74 (12): 5463–7. doi:10.1073/pnas.74.12.5463. PMID 271968. Bibcode1977PNAS...74.5463S. 
  7. 7,0 7,1 http://www.dnaday.com/2012/Education2.asp
  8. M. Ronaghi, S. Karamohamed, B. Pettersson, M. Uhlen, and P. Nyren (1996). "Real-time DNA sequencing using detection of pyrophosphate release". Analytical Biochemistry 242 (1): 84–9. doi:10.1006/abio.1996.0432. PMID 8923969. 
  9. Brenner S (2000). "Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays". Nature Biotechnology 18 (6): 630–634. Nature Biotechnology. doi:10.1038/76469. PMID 10835600. 
  10. Lander ES (February 2001). "Initial sequencing and analysis of the human genome". Nature 409 (6822): 860–921. doi:10.1038/35057062. PMID 11237011. 
  11. Venter JC (February 2001). "The sequence of the human genome". Science 291 (5507): 1304–51. doi:10.1126/science.1058040. PMID 11181995. Bibcode2001Sci...291.1304V. 
  12. Stein RA (1 September 2008). "Next-Generation Sequencing Update". Genetic Engineering & Biotechnology News 28 (15). 
  13. 13,0 13,1 13,2 13,3 Michael L. Metzker (2010). "Sequencing technologies — the next generation". Nature Reviews Genetics 11. 
  14. 14,0 14,1 Lin Liu et. al. (2012). "Comparison of Next-Generation Sequencing Systems". Journal of Biomedicine and Biotechnology 2012. 
  15. http://seq.molbiol.ru/sch_clon_ampl.html
  16. HiSeq Systems Comparison
  17. http://www.bioconductor.org/help/course-materials/2009/EMBLJune09/Talks/RNAseq-Paul.pdf
  18. Wang Z, Gerstein M, Snyder M. (January 2009). "RNA-Seq: a revolutionary tool for transcriptomics". Nature Reviews Genetics 10 (1): 57–63. doi:10.1038/nrg2484. PMID 19015660. 
  19. Hanno Steen, Matthias Mann (2004). "The abc's (and xyz's) of peptide sequencing". Nature Reviews Molecular Cell Biology.