Sekveneerimine

Allikas: Vikipeedia

Sekveneerimine ehk järjestusanalüüs ehk järjendamine (inglise sequencing) on monomeeride (nukleotiidide, aminohapete) järjestuse kindlaksmääramine informatsiooniliste biopolümeeride (DNA, RNA, valkude) molekulides.

Sekveneerimine annab tulemuseks märkidest koosneva tõlgenduse, mida nimetatakse sekventsiks, ja kirjeldab suuremat osa sekveneeritud molekulist. "Suuremat osa" kirjeldab ta sellepärast, et sekveneerimismeetodid ei ole täiuslikud. Näiteks DNAd sekveneerides antakse järjestus nelja erineva nukleiinhappejäägi jadana (lühendatult A, T, C, G), kuid rakus endas võivad need olla modifitseeritud ehk sekveneerimisel tulemuseks saadud A ei pruugi olla sama rakus päriselt oleva monomeeriga. Samuti annab sekveneerimine tulemuseks polümeeri järjestuse, kuid ruumiline struktuur tuleb leida teiste meetodite abil ja see võib olla vägagi keeruline.

Sekveneerimine on tänapäeva bioteaduste alal üks vajalikumaid tehnikaid. Ilma selleta oleks näiteks pea võimatu koostada evolutsioonipuid või arendada välja kindlaid mehhanisme sihtivaid ravimeid ja isegi teada neidsamu mehhanisme tuvastada, sest kõige selle jaoks oli vähemalt mingis etapis kasutatud biomolekulide sekveneerimist.

Kronoloogia[muuda | muuda lähteteksti]

1943. aastal näitasid Oswald Avery, Colin MacLeod ja Maclin McCarty, et DNA kannab pärilikkuse informatsiooni.[1]

1951. aastal tegi Frederick Sanger kindlaks veise insuliini aminohappelise järjestuse.[2]

1953. aastal avaldasid James D. Watson ja Francis Crick artikli DNA kaksikheeliksmudeli kohta.[3]

1957. aastal sõnastas F. Crick molekulaarbioloogia põhidogma.[4]

1965. aastal suudeti sekveneerida 77-nukleotiidiline lõik seene tRNAst (Robert W. Holley grupp).

1977. aastal avaldasid Allan Maxam ja Walter Gilbert artikli "DNA sequencing by chemical degradation" (DNA sekveneerimine keemilise degradatsiooni abil),[5] Frederick Sanger tuli samal ajal välja enda meetodiga, DNA sekveneerimine ahela terminatsiooni abil.[6]

1984. aastal dešifreerisid Medical Research Counsili teadlased Epsteini-Barri viiruse kogu genoomi (170 kb)[7]

1987. aastal tuli Applied Biosystems turule esimese automatiseeritud sekvenaatoriga, mudel ABI 370.

1990. aastal alustati projektiga sekveneerimaks inimese genoomi (Human Genome Project HGP).[7]

1996. aastal leiutasid Pål Nyrén ja Mostafa Ronaghi pürosekveneerimise.[8]

1998 alustas Celera Genomics enda projektiga sekveneerimaks inimese genoomi.

2000. aastal tuli Lynx Therapeutics välja esimese, kuid kohmaka järgmise põlvkonna sekvenaatoriga.[9]

2001. aastal avaldasid nii Human Genome Project kui ka Celera enda esialgsed genoomid.[10][11]

2004. aastal tuli 454 Life Sciences välja pürosekveneerimisel põhineva järgmise põlvkonna sekvenaatoriga, mis vähendas sekveneerimishindu automatiseeritud Sangeri sekvenaatoriga võrreldes kuuekordselt.[12]

DNA sekveneerimine[muuda | muuda lähteteksti]

 Pikemalt artiklis DNA sekveneerimine

DNA sekveneerimiseks kutsutakse DNA molekuli primaarse struktuuri nukleotiidse järjestuse määramist. Hiljutise ajani on sekveneerimisel rohkem kasutatud ahela terminatsiooni ehk Sangeri meetodit (inglise keeles chain termination method või Sanger sequencing), mille arendasid välja Frederick Sanger ja Alan Coulson 1970. aastate teisel poolel.[6] Samaaegselt tulid oma sekveneerimise taktikaga välja ka ameeriklased Allan Maxam ja Walter Gilbert, kuid nende meetod kaotas oma populaarsuse, kuna Sangeri meetodit sai kergemini automatiseerida ja ohtlikke reagente kasutati märgatavalt vähem. Tänapäeval tuleb suurem osa sekveneerimisandmetest "järgmise põlvkonna sekveneerimise" (inglise keeles NGS ehk Next Generation Sequencing) platvormidelt, mille tehnoloogiad on erinevate korporatsioonide patentidega kaitstud ja seetõttu üksteisest erinevad. Enamiku NGS tehnoloogiate ühiseks omaduseks on see, et pinnal paigal olevate DNA juppide (inglise keeles template) alusel sünteesitakse komplementaarne vastasahel, mida tehes registreeritakse iga lisatud nukleotiidi korral kiirgus või keemiline signaal. Üleüldiselt iseloomustab sääraseid tehnikaid "sünteesi abil sekveneerimine" (inglise keeles sequencing by synthesis). DNA järjestus hoiab endas vajalikku informatsiooni, mis laseb elusorganismidel ellu jääda ja paljuneda. Seetõttu on DNA järjestuse teadmine oluline nii baasteadustes kui rakendusteadustes. DNA sekveneerimise tähtsust suurendab ka see, et seda leidub kõigis elusorganismides, tehes selle kasutatavaks põhimõtteliselt kõikidel bioloogia aladel. Näiteks meditsiinis saab seda kasutada haiguste identifitseerimiseks ja potentsiaalselt ka ravi väljatöötamiseks erinevatele geneetilistele haigustele. Sama käib ka erinevate patogeenide kohta.

Sangeri sekveneerimine[muuda | muuda lähteteksti]

Vasakul sekvents geeliradadel, paremal sekvenaatorist tulnud pilt

Sangeri sekveneerimise ehk ahela termineerimise metoodika oli 1980. aastatest alates põhiline DNA sekveneerimise meetod (laialdane kasutus tänapäevalgi).[13] Järgmise põlvkonna sekveneerimistehnoloogiad on hakanud eelmise kümnendi keskpaigast alates sekveneerimist enda peale võtma ja enamik sekveneerimise informatsioonist tuleb tänapäeval sealt. Sellegipoolest ei tasuks alahinnata selle meetodi panust bioteadustesse. Suurem osa eri liikide genoome, mis sekveneeriti enne järgmise põlvkonna sekvenaatorite ajastut (sealhulgas ka inimese oma), sekveneeriti selle sama metoodika abil. Lisaks kasutati Sangeri sekveneerimist ka teiste biopolümeeride, valkude ja RNA, kaudseks sekveneerimiseks, sest nende sekveneerimine otse on keerukam.

Ahela terminatsiooni meetod vajab üheahelalist DNAd, DNA praimerit, polümeraasi, vastavaid desoksüribonukleotiidtrifosfaate (dNTP) ja modifitseeritud nukleotiide (didesoksüNTP-d e ddNTP), millel puuduvad sünteesi jätkamiseks vajalikud 3’-OH rühmad. Kõigepealt liituvad DNA praimerid DNA maatriksmolekuliga täpselt samast kohast, siis seondub sinna DNA polümeraas. Edasine põhimõte seisneb algsele üheahelalisele DNA molekulile komplementaarse vastasahela sünteesis sel moel, et vastasahela süntees katkeks juhuslikul hetkel, kuid kindlat tüüpi nukleotiidi (kas siis A, T, C või G) juures. Algselt saavutati see, viies vastasahela süntees läbi neljas eri reaktsiooninõus, kus igas nõus asus vaid ühte tüüpi ddNTPd. Kuna igas nõus on korraga väga palju samasuguseid DNA maatriksmolekule, tekib ddNTPde juhuslikul ahelasse liitumisel suur kogus erineva pikkusega DNA ahelaid, mis lõppevad kindla nukleotiidiga. Need ahelad tuleb siis panna kõrge lahutusvõimega geelile, iga reaktsioonitüüp eri rajale ja sealt lahutuvad nad pikkuse alusel kindlasse järjekorda. Nelja rada korraga vaadates saab DNA järjestuse kindlaks teha. Automatiseeritud masinates kasutatakse reaktsioonisegus nelja eri ddNTPd korraga, iga ddNTP eri värviga fluorestseerivalt märgistatud. Tänu sellele ei ole vajadust reaktsiooni neljas eri nõus läbi viia ja ka geelil, mis asub masinates kapillaari sees, piisab ühest ainsast rajast, et järjestus edukalt välja lugeda. ddNTP (varem märgistati ka praimereid ning dNTP-sid) märgistatakse kas fluorestsentselt või radioaktiivselt , et hiljem eri nukleotiididel vahet teha. Siis viiakse nende koostisosade abil läbi DNA vastasahela süntees, mis mingil hetkel lülitab endasse ka ddNTP, mille peale ahela süntees lõpeb. Pärast seda denatureeritakse reaktsioonisegu ja sünteesitud eri pikkustega DNA ahelad liiguvad geelil eri kiirusega, ja on seetõttu eristatavad. Algupärases meetodis pandi iga ddNTP-ga tehtud reaktsioon polüakrüül-uurea geeli eri rajale ja saadi selle kaudu sekvents teada, kuid tänapäeval saab eri lainepikkusega fluorestseeruva ddNTP kaudu teha neil vahet ka läbi ühe raja jooksutades. Automatiseeritud masinates on see rada kapillaari sees, mis jookseb mõõteandurite eest läbi, andes sellega järjestuse.

Järgmise põlvkonna sekveneerimine[muuda | muuda lähteteksti]

Kuigi Inimese Genoomi Projekt (HPG) oli edukas, olid ka selle kulud väga suured: 13 aastat kestnud projekti hinnaks kujunes üle 3 miljardi dollari.[14] Kuna vajadus ülegenoomsete andmete järele oli väga suur, siis tuli leida uusi ja odavamaid viise DNA sekveneerimiseks. Suuna näitas kätte Lynx Therapeuticsi RNA sekvenaator. Sellel tehnikal oli küllaldaselt vigu, näiteks lühikesed readide pikkused (17–20 aluspaari), kuid massiivse paralleelse sekveneerimise põhimõttel oli potentsiaal ühe sekveneerimisega genereerida üüratul hulgal andmeid. Esimesena tulid enda NGS platvormiga välja Jonathan Rothbergi asutatud 454 Corporation (aastal 2004). Samal ajal töötasid S. Balasubramanian ja D. Klenerman välja enda sekveneerimistehnoloogiat ja asutasid firma Solexa. Nende sekvenaator oli esimene instrument, mis oli võimeline genereerima 1 GB andmeid ühe jooksuga. Esialgsed readid olid aga kõigest 26 aluspaari pikad, kuid nende tehnoloogias oli potentsiaali ja aastal 2007 maksis Illumina selle tehnoloogia eest 600 miljonit USA dollarit. George Church ja tema kolleegid tulid 2005 välja enda sekveneerimistaktikaga, mille ostis ära Applied Biosystems. Need kolm firmat on haaranud suurema osa teise põlvkonna sekvenaatorite tootmise turust ja esialgsed seadmete andmetootmismahud on suurenenud sadu kordi.[14]

Erinevates teise põlvkonna sekveneerimisplatvormides kasutatakse erinevaid, üksteisele järgnevaid tehnikaid, kuid neid saab sarnasuste abil koondada järgmiselt: maatritsi (inglise keeles template) valmistamine, sekveneerimine ja signaali lugemine.[13]

Illumina platvormid kasutavad sünteesi abil järjestamise tehnoloogiat (inglise keeles Sequencing by Synthesis, lühend SBS), mis loodi aastal 1998 toona firma Solexa asutajate poolt. Alguses tuleb valmistada DNA-genoteek ehk genoomiraamatukogu (inglise keeles library), mis kujutab endast ühtlase pikkusega adapteritega DNA juppe. Siis tuleb genoteegis olevad jupid seondada pinnale, millelt toimub hilisem sekventsi väljalugemine, ning enamikul platvormidel toimub selles kohas ka kohalik PCR võimendus. Illumina puhul näeb see protsess välja nii, et DNA-genoteegi üksik molekul seondub kiibile kusagile suvalisele kohale, mis asub teistest genoteegi molekulidest suhteliselt kaugel ja sinna moodustub spetsiaalse PCR lahenduse kaudu tihe grupp samu molekule.[13][15] Sealt edasi toimub kõikidel platvormidel erinev, kuid põhimõttelt mingisugust sünteesireaktsiooni kasutav vastasahela süntees, kus iga uue nukleotiidi või oligomeeri lisandumisel registreeritakse mingisugune signaal (enamasti kindla lainepikkusega valgus). Kuigi kiipidele paigutumine oli algselt juhuslik, ei muutu maatriksahela asukoht ja seade on võimeline järjestama samast asukohast pärit olevaid signaale readiks. Siit tulebki NGS platvormide suur eelis Sangeri sekvenaatorite ees, sest kuigi Sangeri sekvenaatorid genereerivad enamasti pikemaid reade, ei ole võimalik paigutada nii paljusid kapillaare paralleelselt, kui seda NGS platvormid suudavad. Näiteks loeb Illumina võimsaim masin järjestusi ühelt kiibilt (flow cell) paralleelselt 3 miljardist positsioonist.[16]

NGS sekvenaatoritest tulevad toorandmed koosnevad suhteliselt lühikestest juppidest. Olenevalt platvormist on keskmised readid mõnikümmend kuni 700 aluspaari pikad.[13] Inimese puhul oleks sääraste juppide osalise kattuvuse abil genoomi koostamine tarbetult arvutusvõimsust kulutav operatsioon. Selle asemel võrreldakse neid juppe juba teada oleva genoomiga ja kaardistatakse need jupid sinna. Kogu protsess nõuab arvutitelt sellegipoolest väga palju ja tänapäeval on nende tehnoloogiate viga juba selles, et arvutusvõimsus ei kasva nii kiiresti, nagu kasvab andmete tekitamispotentsiaal.

Kolmanda põlvkonna sekveneerimine[muuda | muuda lähteteksti]

2022. aastal tuli Pacific Biosciences, lühidalt PacBio, välja uue lühikeste lugemite sekvenaatoriga ONSO, mis on 15 korda täpsem kui varasemad Sequencing by Synthesis tehnoloogiat kasutavad sekvenaatorid. ONSO põhineb tehnoloogial Sequencing by Binding, lühendina SBB, mille andmete kvaliteet on kõrgtasemel Q40 Phredi skaala kvaliteediskoori järgi. Võrdluseks, Illumina sekvenaatorid on tasemel Q30.

Phredi skaala kvaliteediskoor[muuda | muuda lähteteksti]

Kvaliteediskoorid veamäära järgi on jagatud järgmiselt: Q20 - sekveneeritud 100 aluspaari võib sisaldada 1 viga. Q30 - sekveneeritud 1000 aluspaari võib sisaldada 1 viga. Q40 - sekveneeritud 10,000 aluspaari võib sisaldada 1 viga.

RNA sekveneerimine[muuda | muuda lähteteksti]

 Pikemalt artiklis RNA sekveneerimine

RNA on sünteesitud DNA ahela pealt, kuid DNA sekveneerimine ei anna vastust selle kohta, missuguseid geene antud hetkel uuritavas koes/rakus ekspresseeritakse ja kuidas seda RNAd töödeldud on (vajalik näiteks vähiuuringutes). Selle jaoks läheb vaja sekveneerida ka RNAd. Kuna RNA ei säili tavakeskkonnas nii hästi ja DNA jaoks on sekveneerimine juba välja töötatud, seisneb RNA sekveneerimine uurimise all oleva RNA rikastatud proovilt cDNA (komplementaarne DNA) sünteesis ja siis selle sekveneerimises DNA sekvenaatoritega. RNA sekveneerimine erineb DNA sekveneerimisest suuremalt jaolt vaid genoomiraamatukogu valmistamises ja andmete analüüsis. Siin on erandiks Helicos Biosciences, kes arendab välja DRSTM (inglise keeles single molecule direct RNA sequencing) platvormi.

RNA sekveneerimiseks tuleb kõigepealt rikastada eraldatud RNAd uuritavate molekulide suhtes. Kogu transkriptoomi shotgun sequencing (RNA-Seq) puhul tähendaks see ribosomaalsest RNA-st lahti saamist, kuna see moodustab väga suure enamiku kogu transkribeeritavast RNAst. Levinuim viis selle tegemiseks on magnetiliste helmestega mRNA polüA saba pidi seondumine ja siis ülejäänud RNA väljapesemine. Sellele järgneb cDNA süntees ja fragmenteerimine soovitud pikkusega juppideks, pärast mida tuleb genoteeki töödelda vastavalt uurimuse ja platvormi vajadustele. Hilisem andmeanalüüs on tihti veelgi rohkem arvuteid koormav kui DNA sekveneerimistel, kuna mitte kõiki reade ei saa kaardistada referentsandmebaasidele ja mõnikord on vajalik de novo joondamine.[17][18]

Valkude sekveneerimine[muuda | muuda lähteteksti]

 Pikemalt artiklis Valkude sekveneerimine

Kui uuritavat valku kodeeriv geen on teada, siis on palju lihtsam sekveneerida selle geeni DNA või mRNA ning sealt lugeda välja valgu aminohappeline järjestus. Et teada, mis geeni produkt see on, tuleb sekveneerida valgust lühike jupp (nt 15 aminohapet) ja kasutada seda infot, et luua komplementaarne marker valgu RNAle. Seda kasutades tuleb isoleerida vastav mRNA, mida siis omakorda sekveneerida. Muidugi tuleb arvestada võimalusega, et pärast translatsiooni muudetakse valgu järjestust ja seetõttu on mõnikord siiski vaja sekveneerida valku otse. Otseseks valkude sekveneerimiseks on kaheks valitsevaks meetodiks massispektromeetria ja Edmani degradatsioon.

Automatiseeritud Edmani sekvenaatorid töötavad järgmiselt:

  1. Keemilisel teel valgu denatureerimine
  2. Kompleksvalgu puhul valgu eri ahelate eraldamine ja puhastus
  3. Eri aminohapete suhte määramine iga ahela jaoks eraldi
  4. Iga ahela jaoks terminaalsete aminohapete määramine
  5. Ahelate lühikesteks juppideks lagundamine (maksimaalselt 50 AH, sest Edmani degratsioon ei suuda pikemaid polüpeptiide sekveneerida)
  6. Fragmentide üksteisest eraldamine
  7. Nende juppide aminohape-haaval tükkideks lagundamine ja iga aminohappe määramine ehk sekveneerimine ise.
  8. Kogu jada kordamine teistsuguse lõikemustri korral

Massispektromeetria puhul seeditakse endoproteaasi teel proteiin tükkideks ja need tükid lastakse läbi kõrgsurvevedelikkromatograafia kolonni. Peptiidid pihustatakse kohe pärast nende kolonnist väljumist läbi tugeva positiivse pingega otsiku spektromeetrisse, kus laeng lahutab tilgad väikesteks fragmentideks, kuni iga tilk on vaid üksik ioon ja läbi elektromagnetvälja liikudes eralduvad need laengu/massi suhte järgi detektori eri positsioonidele. Seda protsessi korratakse erinevate seedeensüümidega ja lõplik järjestus üritatakse selle põhjal välja arvutada.[19]

Viited[muuda | muuda lähteteksti]

  1. Avery O, MacLeod C, McCarty M (1944). "Studies on the chemical nature of the substance inducing transformation of pneumococcal types : induction of transformation by a desoxyribonucleic acid fraction isolated from pneumococcus type III". J Exp Med. 79 (2): 137–158. DOI:10.1084/jem.79.2.137. PMC 2135445. PMID 19871359.{{cite journal}}: CS1 hooldus: mitu nime: autorite loend (link)
  2. Sanger & Tuppy 1951a; Sanger & Tuppy 1951b; Sanger & Thompson 1953a; Sanger & Thompson 1953b
  3. Watson J.D. and Crick F.H.C. (1953). "A Structure for Deoxyribose Nucleic Acid" (PDF). Nature. 171 (4356): 737–738. Bibcode:1953Natur.171..737W. DOI:10.1038/171737a0. PMID 13054692.
  4. Crick, F.H.C. On degenerate templates and the adaptor hypothesis (PDF). genome.wellcome.ac.uk (Lecture, 1955). Retrieved 22 December 2006.
  5. Maxam AM, Gilbert W (veebruar 1977). "A new method for sequencing DNA". Proc. Natl. Acad. Sci. U.S.A. 74 (2): 560–4. Bibcode:1977PNAS...74..560M. DOI:10.1073/pnas.74.2.560. PMC 392330. PMID 265521.
  6. 6,0 6,1 Sanger F, Nicklen S, Coulson AR (detsember 1977). "DNA sequencing with chain-terminating inhibitors". Proc. Natl. Acad. Sci. U.S.A. 74 (12): 5463–7. Bibcode:1977PNAS...74.5463S. DOI:10.1073/pnas.74.12.5463. PMC 431765. PMID 271968.{{cite journal}}: CS1 hooldus: mitu nime: autorite loend (link)
  7. 7,0 7,1 "Arhiivikoopia". Originaali arhiivikoopia seisuga 19. jaanuar 2014. Vaadatud 3. detsembril 2012.{{netiviide}}: CS1 hooldus: arhiivikoopia kasutusel pealkirjana (link)
  8. M. Ronaghi, S. Karamohamed, B. Pettersson, M. Uhlen, and P. Nyren (1996). "Real-time DNA sequencing using detection of pyrophosphate release". Analytical Biochemistry. 242 (1): 84–9. DOI:10.1006/abio.1996.0432. PMID 8923969.{{cite journal}}: CS1 hooldus: mitu nime: autorite loend (link)
  9. Brenner S; et al. (2000). "Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays". Nature Biotechnology. Nature Biotechnology. 18 (6): 630–634. DOI:10.1038/76469. PMID 10835600.
  10. Lander ES; Linton LM; Birren B; et al. (veebruar 2001). "Initial sequencing and analysis of the human genome". Nature. 409 (6822): 860–921. DOI:10.1038/35057062. PMID 11237011.
  11. Venter JC; Adams MD; Myers EW; et al. (veebruar 2001). "The sequence of the human genome". Science. 291 (5507): 1304–51. Bibcode:2001Sci...291.1304V. DOI:10.1126/science.1058040. PMID 11181995.
  12. Stein RA (1. september 2008). "Next-Generation Sequencing Update". Genetic Engineering & Biotechnology News. 28 (15).
  13. 13,0 13,1 13,2 13,3 Michael L. Metzker (2010). "Sequencing technologies – the next generation". Nature Reviews Genetics. 11. DOI:10.1038/nrg2626.
  14. 14,0 14,1 Lin Liu; et al. (2012). "Comparison of Next-Generation Sequencing Systems". Journal of Biomedicine and Biotechnology. 2012. DOI:10.1155/2012/251364. {{cite journal}}: et al.-i üleliigne kasutus kohas: |author= (juhend)
  15. "Arhiivikoopia". Originaali arhiivikoopia seisuga 9. jaanuar 2013. Vaadatud 3. detsembril 2012.{{netiviide}}: CS1 hooldus: arhiivikoopia kasutusel pealkirjana (link)
  16. "HiSeq Systems Comparison". Originaali arhiivikoopia seisuga 14. oktoober 2012. Vaadatud 3. detsembril 2012.
  17. Paul Bertone: RNA sequencing
  18. Wang Z, Gerstein M, Snyder M. (jaanuar 2009). "RNA-Seq: a revolutionary tool for transcriptomics". Nature Reviews Genetics. 10 (1): 57–63. DOI:10.1038/nrg2484. PMC 2949280. PMID 19015660.{{cite journal}}: CS1 hooldus: mitu nime: autorite loend (link)
  19. Hanno Steen, Matthias Mann (2004). "The abc's (and xyz's) of peptide sequencing". Nature Reviews Molecular Cell Biology. DOI:10.1038/nrm1468.