SNPde annotatsioon

Allikas: Vikipeedia
Jump to navigation Jump to search
SNPde annoteerimine
Jaotus bioinformaatika
Alamjaotus ühenukleotiidiline polümorfism
Kasutatavad tööriistad funktsionaalsed annoteerimistööriistad
Seotud teemad genoomika

Üksiknukleotiidsete polümorfismide (SNP) annoteerimine on individuaalsete SNP-de efekti või mõju ennustamine kasutades SNP-de annoteerimise töövahendeid. SNP-de funktsionaalseks annoteerimiseks kasutatakse nukleiinhappe- või valgujärjestust, mida töödeldakse ja tulemused esitatakse selges vormis seotuna päringjärjestusega.[1]

Ühenukleotiidilised polümorfismid mängivad olulist rolli ülegenoomsetes assotsiatsiooniuuringutes, kus neil on primaarsete biomarkerite roll. SNP-d on tänapäeval esmane markerivalik nende suure esinemissageduse tõttu pea igas indiviidide populatsioonis. Nende biomarkerite asukoht on oluline ennustamaks valkude funktsionaalset tähtsust, geenide kaardistamises ning populatsioonigeneetikas.[2] Iga SNP tähistab kindlas positsioonid toimunud nukleotiidide vahetust kahe indiviidi vahel. SNP-d on kõige sagedasem indiviididel leiduva geneetilise varieeruvuse tüüp, mõne liigi genoomis on üks SNP iga 100–300 aluspaari järel.[3] Väga suure SNP-de hulga tõttu genoomis on genotüüpimise ja analüüsi kiirendamiseks vaja seada SNP-d nende potentsiaalse mõju järgi tähtsuse järjekorda.[4]

Suure SNP-de hulga annoteerimine on keeruline protsess, mis vajab arvutuslikke meetodeid haldamaks suuri andmestikke. Paljud tööriistad on arendatud annoteerimaks erinevates liikides leiduvaid SNP-sid, mõned on optimeeritud analüüsimaks tiheda andmestikuga liikide SNP-sid (näiteks inimene). Vähesed tööriistad ei ole liigispetsiifilised või toetavad mitte-mudelorganismide andmeid. Enamik SNP-de annoteerimise tööriistadest ennustab arvutuslikult SNP-de võimalikku kahjulikku mõju. Tööriistad hindavad, kas SNP asub genoomi funktsionaalses osas, nagu eksonis, splaiss-saidis või transkriptsiooni regulatsiooni alas, ning ennustavad SNP-de võimalikku mõju kasutades erinevat valikut masinõppe lähenemistest. Kuid tööriistadel, mis klassifitseerivad SNP-sid vastavalt nende funktsionaalsele tähtsusele, on mitmeid puudusi. Esiteks, nad hindavad ainult SNP oletatavat kahjulikku mõju vastavalt nende ühele bioloogilisele funktsioonile, mis annab ainult osalist informatsiooni SNP-de funktsionaalsest olulisusest terves bioloogilises süsteemis. Teiseks, praegused süsteemid klassifitseerivad SNP-sid ainult kahte gruppi – kahjulikud või neutraalsed.[5]

SNP-de annoteerimise alused[muuda | muuda lähteteksti]

SNP-de annoteerimiseks on kasutusel erinev geneetiline ja genoomne informatsioon. Lähtuvalt anooteerimistööriistade kasutatavatest lähenemistest võib annoteerimised jaotada järgnevalt.

Geenipõhine annoteerimine[muuda | muuda lähteteksti]

Genoomsete elementide ümber olev genoomne informatsioon on kõige kasulikumaks tõlgendamaks uuritavate variantide bioloogilist funktsiooni. Tuntud geeni puudutav informatsioon on kasutusel referentsina, et leida uuritava variandi asukoht geenis või selle lähedal ja seeläbi hinnata, kas variant põhjustab katkestusi või teisi muutusi valgujärjestuses või muudab valgu funktsiooni. Geenipõhine annoteerimine põhineb lähenemisel, et mittesünonüümne mutatsioon, mis muudab valgujärjestust või muteerub splass-saiti ja seeläbi transkripti splaissimismustrit, on kahjulik.[6]

Teadmistepõhine annoteerimine[muuda | muuda lähteteksti]

Teadmistepõhine annotatsioon põhineb informatsioonil geeni omaduste, valgu funktsioonide ja tema metabolismi kohta. Selle annotatsiooni puhul on suurem rõhk geneetilistel variatsioonidel, mis põhjustavad muutusi valkude funktsionaalsetes domeenides, valk-valk interaktsioonides ja bioloogilistes radades. Genoomi mittekodeerivad piirkonnad võivad sisaldada tähtsaid regulatoorseid elemente, näiteks promootorid, enhanserid ja insulaatorid, ning igasugune muutus regulatoorsetes piirkondades võib viia vastavate valkude funktsioonide muutumiseni.[7] Mutatsioon DNA-s võib muuta RNA järjestust ja seeläbi mõjutada RNA sekundaarset struktruuri, RNAga seostuvate valkude äratundmist ja mRNA seostumise aktiivsust.[8][9]

Funktsionaalne annoteerimine[muuda | muuda lähteteksti]

Funktsionaalse annoteerimine identifitseerib variantide funktsioone vastavalt informatsioonile variantide lookuste kohta. Hinnatakse, kas antud lookused asuvad tunud funktsionaalsetes piirkondades, kuhu seostuvad ka genoomsed või epigenoomsed signaalid. Mittekodeerivate variantide funktsioon on lai, nad mõjutavad paljusid genoomseid piirkondi ja on seotud peaaegu kõikide geeniregulatsiooni protsessidega alates transkriptsioonist lõpetades translatsioonijärgse tasemega.[10]

Transkriptsiooniline geeniregulatsioon[muuda | muuda lähteteksti]

Transkriptsiooniline geeniregulatsioon sõltub paljudest ruumilistest ja ajalistest faktoritest tuumas nagu üldistest või kohalikest kromatiini seisunditest, nukleosoomi asendist, transkriptsioonifaktorite seostumisest, enhanserite ja promootorite aktiivsusest. Variant, mis muudab ühte neist bioloogilistest protsessidest, võib mõjutada geeniregulatsiooni ja seeläbi kutsuda esile fenotüübilist muutust.[11] Kaugetes regulatoorsetes piirkondades asuvad geneetilised variandid võivad mõjutada transkriptsioonifaktorite seostumismusreid, kromatiini regulaatoreid ning teisi kaugeid transkriptsioonifaktoreid, mis omakorda segab interaktsiooni enhanseri/vaigistaja ja tema sihtmärkgeeni vahel.[12]

Alternatiivne splaissing[muuda | muuda lähteteksti]

Alternatiivne splaissing on üks olulisemaid genoomi keerukuse näitamise osasid. Muudetud splaissing omab olulist mõju fenotüübile, mis võib olla seotud haiguste või ravimite metabolismiga. Muutust võivad splaissingus põhjustada kõikide splaissimismasina osade muteerumised nagu muutused splaiss-saitides või splaissimise enhanerites ja vaigistajates. Muutused alternatiivse splaisingu saidis võivad viia erinevate funktsioonidega valkude sünteesini. Inimeses on ligi 50 000 erinevat valku, seega mõned geenid peavad olema suutelised tootma erinevaid valke. Alternatiivne splaissing esineb sagedamini kui varem arvatud ja seda võib olla raske kontrollida, mõne geeni pealt toodetakse tuhandeid erinevaid transkripte, seega on iga alternatiive splaisingu jaoks vaja uut geenimudelit.[13]

RNA protsessing ja transkriptsioonijärgne regulatsioon[muuda | muuda lähteteksti]

Mutatsioonid transleerimata regioonides (UTR) mõjutavad paljusid translatsioonijärgseid regulatsioone. Iseloomulikud struktuurilised tunnused on vajalikud paljudele RNA molekulidele ja cis-funktsiooniga regulatoorsete elementide jaoks erinevate funktsioonide täitmiseks geeniregulatsioonis. SNP-d võivad mõjutada RNA molekulide sekundaarseid struktuure, häirida RNA molekulide õiget kokku voltimist, näiteks tRNA, mRNA või lncRNA voltimist või miRNA seostussaidi äratundmist.[14]

Translatsioon ja translatsioonijärgne modifikatsioon[muuda | muuda lähteteksti]

SNP-d võivad mõjutada cis-funktsiooniga regulatoorseid elemente mRNAs inhibeerida või edendada translatsiooni initsiatsiooni. Muutus sünonüümsetes koodonites võib mõjutada translatsiooni efektiivsust erapooliku koodonite kasutamise tõttu. Translatsiooni elongatsioon võib samuti muutuda vigaseks mutatsioonide tõttu ribosoomi teel oleval rampil. Translatsioonijärgsel tasandil võivad geneetilised variandid mõjutada valgutasakaalu ja aminohapete modifikatsioone. SNP mõju mehhanismid sellel tasandil on keerulised ning vähesed tööriistad ennustavad SNP-de mõju translatsiooni tasandil.[6]

Valgu funktsioon[muuda | muuda lähteteksti]

Mittesünonüümsed variandid põhjustavad muutusi geeni kodeeritud aminohappejärjestustes, sealhulgas põhjustavad SNP-d üksikute aluspaaride muutust ja mitteraamnihkelisi insertsioone ja deletsioone. Mittesünonüümsete mutatsioonide mõju valgu funktsioonile on palju uuritud ning arendatud on palju algoritme SNP-de kahjulike või patogeentsete mõjude ennustamiseks. Laialdaselt kasutusel olevad tööriistad, nagu SIFT, PolyPhen ja MutationTester, ennustavad edukalt mittesünonüümsete asenduste funktsionaalseid tagajärgi.[15][16][17][18]

Evolutsiooniline konservatsioon ja looduslik valik[muuda | muuda lähteteksti]

Võrdlev genoomika on kasutusel ennustamaks funktsionaalselt olulisi variante. Ennustus lähtub eeldusest, et funktsionaalselt olulised geenilookused peavad olema konserveerunud erinevates liikides ka ulatusliku fülogeneetilise kauguse korral. Teisest küljest on osa adaptiivseid omadusi ja erinevusi populatsioonide vahel põhjustatud läbi soodsate geenialleelide positiivse selektsiooni. Need geneetilised mutatsioonid on funktsionaalselt olulised populatsioonispetsiifilistes fenotüüpides.[6]

SNP-de annoteerimise tööriistad[muuda | muuda lähteteksti]

Teise põlvkonna sekveneerimisandmete annoteerimiseks on saadaval suur hulk SNP-de annoteerimise tööriistu. Osa neist on spetsiifilised kindlate liikide genoomsete variantide analüüsimiseks. Valik SNP annoteerimise töövahendeid ja nende kasutatavaid lähenemisi on toodud järgnevas tabelis.

Tööriist Kirjeldus Andmebaasid Koduleht Viited
SNPeff SnpEff annoteerib variante, kasutades nende asukohta genoomis, ning ennustab kodeeringu mõju. Kasutab intervallimetsa lähenemist. ENSEMBL, UCSC ja organismipõhised andmebaasid, näiteks FlyBase, WormBase ja TAIR. http://snpeff.sourceforge.net/SnpEff_manual.htm [19]
ANNOVAR Antud tööriist on sobilik selekteerimaks väikest hulka funktsionaalselt olulisi variante. Annoteerimiseks kasutab mutatsiooni ennustuse meetodit. UCSC, RefSe ja Ensembl. http://www.openbioinformatics.org/annovar/ [20]
PhD-SNP SVM-põhine meetod, mis kasutab BLASTi abil saadud järjestuse informatsiooni. UniRef90 http://snps.biofold.org/phd-snp/ [21]
PolyPhen-2 Sobilik ennustamaks missenss-mutatsioonide kahjulike mõjusid. Ennustamiseks kasutab järjestuste konserveerumist, aminohappeasenduste paiknemist struktuuris ja Swiss-Prot annotatsiooni. UniPort http://genetics.bwh.harvard.edu/pph2/ [22]
F-SNP Ennustab arvutuslikult SNP-de funktsioone haigusseoseliste uuringute jaoks. PolyPhen, SIFT, SNPeffect, SNPs3D, LS-SNP, ESEfinder, RescueESE, ESRSearch, PESX, Ensembl, TFSearch, Consite, GoldenPath, Ensembl, KinasePhos, OGPET, Sulfinator, GoldenPath http://compbio.cs.queensu.ca/F-SNP/ [23]
AnnTools Loodud tuvastamaks uusi SNP/SNV, INDEL ja SV/CNV mutatsioone. AnnTools otsib kattuvusi regulatoorsete elementide, haiguste või teiste tunnustega seotud lookusteda, tuntud segmentaalsete duplikatsioonide ja artefaktide tekkimise suunas kalduvate regioonidega. dbSNP, UCSC, GATK refGene, GAD, genoomsete variantide andmebaas, nimekirjad konserveerunud transkriptsioonifaktoritest, miRNAst, sagedastest struktuursetest genoomsetest variantidest. http://anntools.sourceforge.net/ [24]
SIFT SIFT on tööriist, mis ennustab, kas aminohappeasendus mõjutab valgu funktsiooni. Kasutab ennustamiseks järjestuste homoloogiat. PROT/TrEMBL või NCBI. http://blocks.fhcrc.org/sift/SIFT.html [25]

Viited[muuda | muuda lähteteksti]

  1. S. Aubourg, P. Rouzé, "Genome annotation", Plant Physiol. Biochem, 2001, Vol 29, pp. 181–193
  2. Terry H. Shena, Christopher S. Carlsonb, Peter Tarczy-Hornoch, "SNPit: A federated data integration system for the purpose of functional SNP annotation", Elsevier, 2009, Vol. 95, pp. 181–189
  3. N. C. Oraguzie, E.H.A. Rikkerink, S.E. Gardiner, H.N. de Silva (eds.), "Association Mapping in Plants", Springer, 2007
  4. Capriotti E, Nehrt NL, Kann MG, Bromberg Y. (2012). "Bioinformatics for personal genome interpretation.". Briefings in Bioinformatics. 13: 495–512. PMID 22247263. 
  5. P. H. Lee, H. Shatkay, "Ranking single nucleotide polymorphisms by potential deleterious effects", Computational Biology and Machine Learning Lab, School of Computing, Queen’s University, Kingston, ON, Canada
  6. 6,0 6,1 6,2 M. J. Li, J. Wang, "Current trend of annotating single nucleotide variation in humans – A case study on SNVrap", Elsevier, 2014, pp. 1–9
  7. Z. Wang, M. Gerstein, M. Snyder, "RNA-Seq: a revolutionary tool for transcriptomics", Nat. Rev., 2009, Vol. 10(1), pp. 57–63
  8. M. Halvorsen, J.S.Martin, S. Broadaway, A. Laederach, "Disease-Associated Mutations That Alter the RNA Structural Ensemble", PLoS Genet., 2010, Vol. 6(8), pp. 57–63
  9. Y. Wan, K. Qu, Q. C. Zhang, R. A. Flynn, O. Manor, Z. Ouyang, J. Zhang, R. C. Spitale, M. P. Snyder, E. Segal, H. Y. Chang, "Landscape and variation of RNA secondary structure across the human transcriptome", Nature, 2014, Vol. 505(7485), pp. 706–709
  10. Z.E. Sauna, C. Kimchi-Sarfaty, "Understanding the contribution of synonymous mutations to human disease", Nat. Rev. Genet., 2011, Vol. 12 (10), pp. 683–691
  11. M.J. Li, B. Yan, P.C. Sham, J. Wang, "Exploring the function of genetic variants in the non-coding genomic regions: approaches for identifying human regulatory variants affecting gene expression" Brief. Bioinform, 2014, vol.10
  12. J.D. French,M. Ghoussaini, S.L. Edwards, K.B. Meyer, K. Michailidou, S. Ahmed, S. Khan, M.J. Maranian, M. O’Reilly, K.M. Hillman, et al., "Functional variants at the 11q13 risk locus for breast cancer regulate cyclin D1 expression through long-range enhancers" Am. J. Hum. Genet., 2013, vol. 92 (4), pp. 489–503
  13. K. Faber, K. H. Glatting, P. J. Mueller, A. Risch, A. H. Wagenblatt, "Genome-wide prediction of splice-modifying SNPs in human genes using a new analysis pipeline called AASsites" BMC Bioinformatics, 2011, 12(Suppl 4):S2
  14. V. Kumar, H.J. Westra, J. Karjalainen, D.V. Zhernakova, T. Esko, B. Hrdlickova, R. Almeida, A. Zhernakova, E. Reinmaa, U. Vosa, M. H. Hofker, R. S. Fehrmann, J. Fu, S. Withoff, A. Metspalu, L. Franke, C. Wijmenga, "Human disease-associated genetic variation impacts large intergenic non-coding RNA expression", PLoS Genet., year=2013, Vol. 9 (1)
  15. J. Wu, R. Jiang, "Prediction of Deleterious Nonsynonymous Single-Nucleotide Polymorphism for Human Diseases", The Scientific World Journal, 2013, 10 pages
  16. N.L. Sim, P. Kumar, J. Hu, S. Henikoff, G. Schneider, P.C. Ng, "Prediction of Deleterious Nonsynonymous Single-Nucleotide Polymorphism for Human Diseases", Nucleic Acids Res., 2012, W452–W457s
  17. I.A. Adzhubei, S. Schmidt, L. Peshkin, V.E. Ramensky, A. Gerasimova, P. Bork, A.S. Kondrashov, S.R. Sunyaev, "A method and server for predicting damaging missense mutations.", Nat. Methods, 2010, Vol. 7 (4), pp. 248–249
  18. J.M. Schwarz, C. Rodelsperger, M. Schuelke, D. Seelow, "MutationTaster evaluates disease-causing potential of sequence alterations", Nat. Methods, 2010, Vol. 7 (8), pp. 575–576
  19. Cingolani, P., Platts, A., Wang, L. L., Coon, M., Nguyen, T., Wang, L., Ruden, D. M. (2012). A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3. Fly, 6(2), 80–92. doi:10.4161/fly.19695
  20. Wang, K., Li, M., & Hakonarson, H. (2010). ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Research, 38(16), e164. doi:10.1093/nar/gkq603
  21. Capriotti E, Calabrese R, Casadio R. (2006). "Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information.". Bioinformatics. 22: 2729–2734. PMID 16895930. 
  22. Adzhubei I., Jordan D.M., Sunyaev S.R. (2013). Predicting functional effect of human missense mutations using PolyPhen-2. Curr Protoc Hum Genet. Vol.(7):20. doi: 10.1002/0471142905.hg0720s76
  23. Lee, P. H., & Shatkay, H. (2008). F-SNP: computationally predicted functional SNPs for disease association studies. Nucleic Acids Research, 36(Database issue), D820–D824. doi:10.1093/nar/gkm904
  24. Makarov, V., O’Grady, T., Cai, G., Lihm, J., Buxbaum, J. D., & Yoon, S. (2012). AnnTools: a comprehensive and versatile annotation toolkit for genomic variants. Bioinformatics, 28(5), 724–725. doi:10.1093/bioinformatics/bts032
  25. Ng, P. C., & Henikoff, S. (2003). SIFT: predicting amino acid changes that affect protein function. Nucleic Acids Research, 31(13), 3812–3814