Mine sisu juurde

SNPde annotatsioon: erinevus redaktsioonide vahel

Allikas: Vikipeedia
Eemaldatud sisu Lisatud sisu
Anna.s (arutelu | kaastöö)
Uus lehekülg: '{{Infobox |name = SNPde annoteerimine |bodystyle = width:22em |titlestyle = |title = SNPde annoteerimine |headerstyle = |labelstyle = width:33% |datasty...'
(Erinevus puudub)

Redaktsioon: 16. november 2015, kell 13:30

SNPde annoteerimine
Jaotus Bioinformaatika
Alamjaotus Ühenukleotiidiline polümorfism
Kasutatavad tööriistad Funktsionaalsed annoteerimistööriistad
Seotud teemad Genoomika

Üksiknukleotiidsete polümorfismide (SNP) annoteerimine on individuaalsete SNPde efekti või mõju ennustamine kasutades SNPde annoteerimise töövahendeid. SNPde funktsionaalseks annoteerimiseks kasutatakse nukleiinhappe- või valgujärjestust, mida töödeldakse ja tulemused esitatakse selges vormis seotuna päringjärjestusega.[1] Ühenukleotiidilised polümorfismid mängivad olulist rolli genoomiülestes assotiatsiooniuuringutes, kus neil on primaarsete biomarkerite roll. SNPd on tänapäeval esmane markerivalik nende suure esinemissageduse tõttu pea igas indiviidide populatsioonis. Nende biomarkerite asukoht on oluline ennustamaks valkude funktsionaalset tähtsust, geenide kaardistamises ning populatsioonigeneetikas.[2] Iga SNP tähistab kindlas positsioonid toimunud nukleotiidide vahetust kahe indiviidi vahel. SNPd on kõige sagedasem indiviididel leiduva geneetilise varieeruvuse tüüp, mõne liigi genoomis on üks SNP iga 100-300 aluspaari järel.[3] Väga suure SNPde hulga tõttu genoomis on genotüpiseerimise ja analüüsi kiirendamiseks vaja seada SNPd nende potentsiaalse mõju järgi tähtsuse järjekorda.[4]

Suure SNPde hulga annoteerimine on keeruline protsess, mis vajab arvutsuslikke meetodeid haldamaks suuri andmestikke. Paljud tööriistad on arendatud annoteerimaks erinevates liikides leiduvaid SNPsid, mõned on optimeeritud analüüsimaks tiheda andmestikuga liikide SNPsid (näiteks inimene). Vähesed tööriistad ei ole liigispetsiifilised või toetavad mitte-mudelorganismide andmeid. Enamik SNPde annoteerimise tööriistadest ennustab arvutuslikult SNPde võimalikku kahjulikku mõju. Tööriistad hindavad, kas SNP asub genoomi funktsionaalses osas, nagu eksonis, splaiss-saidis või transkriptsiooni regulatsiooni alas, ning ennustavad SNPde võimalikku mõju kasutades erinevat valikut masinõppe lähenemistest. Kuid tööriistadel, mis klassifitseerivad SNPsid vastavalt nende funktsionaalsele tähtsusele, on mitmeid puudusi. Esiteks, nad hindavad ainult SNP oletatavat kahjulikku mõju vastavalt nende ühele bioloogilisele funktsioonile, mis annab ainult osalist informatsiooni SNPde funktsionaalsest olulisusest terves bioloogilises süsteemis. Teiseks, praegused süsteemid klassifitseerivad SNPsid anult kahte gruppi – kahjulikud või neutraalsed.[5]

SNPde annoteerimise alused

SNPde annoteerimiseks on kasutusel erinev geneetiline ja genoomne informatsioon. Lähtuvalt anooteerimistööriistade poolt kasutatavatest lähenemistest võib annoteerimised jaotada järgnevalt.

Geenipõhine annoteerimine

Genoomsete elementide ümber olev genoomne informatsioon on kõige kasulikumaks informatsiooniks tõlgendamaks uuritavate variantide bioloogilist funktsiooni. Tuntud geeni puudutav informatsioon on kasutusel referentsina, et leida uuritava variandi asukoht geenis või selle lähedal ja seeläbi hinnata, kas variant põhjustab katkestusi või teisi muutusi valgujärjestuses või muudab valgu funktsiooni. Geenipõhine annoteerimine põhineb lähenemisel, et mittesünonüümne mutatsioon, mis muudab valgujärjestust või muteerub splass-saiti ja seeläbi transkripti splaissimismustrit, on kahjulik.[6]

Teadmistepõhine annoteerimine

Teadmistepõhine annotatsioon põhineb informatsioonil geeni omaduste, valgu funktsioonide ja tema metabolismi kohta. Selle annotatsiooni puhul on suurem rõhk geneetilistel variatsioonidel, mis põhjustavad muutusi valkude funktsionaalsetes domäänides, valk-valk interaktsioonides ja bioloogilistes radades. Genoomi mittekodeerivad piirkonnad võivad sisaldada tähtsaid regulatoorseid elemente, näiteks promootorid, enhanserid ja insulaatorid, ning igasugune muutus regulatoorsetes piirkondades võib viia vastavate valkude fuktsioonide muutumiseni.[7] Mutatsioon DNAs võib muuta RNA järjestust ja seeläbi mõjutada RNA sekundaarset struktruuri, RNAga seostuvate valkude äratundmist ja mRNA seostumise aktiivsust.[8][9]

Funktsionaalne annoteerimine

Funktsionaalse annoteerimine identifitseerib variantide funktsioone vastavalt informatsioonile variantide lookuste kohta. Hinnatakse, kas antud lookused asuvad tunud funktsionaalsetes piirkondades, kuhu seostuvad ka genoomsed või epigenoomsed signaalid. Mittekodeerivate variantide funktsioon on lai, nad mõjutavad paljusid genoomseid piirkondi ja on seotud peaaegu kõikide geeniregulatsiooni protsessidega alates transkriptsioonist lõpetades translatsioonijärgse tasemega.[10]

Transkriptsiooniline geeniregulatsioon

Transkriptsiooniline geeniregulatsioon sõltub paljudest ruumilistest ja ajalistest faktoritest tuumas nagu üldistest või kohalikest kromatiini seisunditest, nukleosoomi asendist, transkriptsioonifaktorite seostumisest, enhanserite ja promootorite aktiivsusest. Variant, mis muudab ühte neist bioloogilistest protsessidest, võib mõjutada geeniregulatsiooni ja seeläbi kutsuda esile fenotüübilist muutust.[11] Kaugetes regulatoorsetes piirkondades asuvad geneetilised variandid võivad mõjutada transkriptsioonifaktorite seostumismusreid, kromatiini regulaatoreid ning teisi kaugeid transkriptsioonifaktoreid, mis omakorda segab interaktsiooni enhanseri/vaigistaja ja tema sihtmärkgeeni vahel.[12]

Alternatiivne splaissing

Alternatiivne splaissing on üks olulisemaid genoomi keerukuse näitamise osasid. Muudetud splaissing omab olulist mõju fenotüübile, mis võib olla seotud haiguste või ravimite metabolismiga. Muutust võivad splaissingus põhjustada kõikide splaissimismasina osade muteerumised nagu muutused splaiss-saitides või splaissimise enhanerites ja vaigistajates. Muutused alternatiivse splaisingu saidis võivad viia erinevate funktsioonidega valkude sünteesini. Inimeses on ligi 50 000 erinevat valku, seega mõned geenid peavad olema suutelised tootma erinevaid valke. Alternatiivne splaissing esineb sagedamini kui varem arvatud ja seda võib olla raske kontrollida, mõne geeni pealt toodetakse tuhandeid erinevaid transkripte, seega on iga alternatiive splaisingu jaoks vaja uut geenimudelit.[13]

RNA protsessing ja transkriptsioonijärgne regulatsioon

Mutatsioonid transleerimata regioonides (UTR) mõjutavad paljusid translatsioonijärgseid regulatsioone. Iseloomulikud struktuurilised tunnused on vajalikud paljudele RNA molekulidele ja cis-funktsiooniga regulatoorsete elementide jaoks erinevate funktsioonide täitmiseks geeniregulatsioonis. SNPd võivad mõjutada RNA polekulide sekundaarseid struktuure, häirida RNA molekulide õiget kokku voltimist, näiteks tRNA, mRNA või lncRNA voltimist või miRNA seostussaidi äratundmist.[14]

Translatsioon ja translatsioonijärgne modifikatsioon

SNPd võivad mõjutada cis-funktsiooniga regulatoorseid elemente mRNAs inhibeerida või edendada translatsiooni initsiatsiooni. Muutus sünonüümsetes koodonites võib mõjutada translatsiooni efektiivsust erapooliku koodonite kasutamise tõttu. Trasnlatsiooni elongatsioon võib samuti muutuda vigaseks mutatsioonide tõttu ribosoomi teel oleval rampil. Translatsioonijärgsel tasandil võivad geneetilised variandid mõjutada valgutasakaalu ja aminohapete modifikatsioone. SNP mõju mehhanismid sellel tasandil on keerulised ning vähesed tööriistad ennustavad SNPde mõju translatsiooni tasandil.[15]

Valgu funktsioon

Mittesünonüümsed variandid põhjustavad muutusi geeni poolt kodeeritud aminohappejärjestustes, sealhulgas põhjustavad SNPd üksikute aluspaaride muutust ja mitteraamnihkelisi insertsioone ja deletsioone. Mittesünonüümsete mutatsioonide mõju valgu funktsioonile on palju uuritud ning arendatud on palju algoritme SNPde kahjulike või patogeentsete mõjude ennustamiseks. Laialdaselt kasutusel olevad tööriistad, nagu SIFT, PolyPhen ja MutationTester, ennustavad edukalt mittesünonüümsete asenduste funktsionaalseid tagajärgi.[16][17][18][19]

Evolutsiooniline konservatsioon ja looduslik valik

Võrdlev genoomika on kasutusel ennustamaks funktsionaalselt olulisi variante. Ennustus lähtub eeldusest, et funktsionaalselt olulised geenilookused peavad olema konserveerunud erinevates liikides ka ulausliku fülogeneetilise kauguse korral. Teisest küljes, osa adaptiivseid omadusi ja populatsioonilisi erinevusi on põhjustatud soodsate variantide positiivse selektsiooni poolt. Need geneetilised mutatsioonid on funktsionaalselt olulised populatsioonispetsiifilistes fenotüüpides.[20]

SNPde annoteerimise tööriistad

Teise põlvkonna sekveneerimisandmete annoteerimiseks on saadaval suur hulk SNPde annoteerimise tööriistu. Osa neist on spetsiifilised kindlate liikide genoomsete variantie analüüsimiseks. Valik SNP annoteerimise töövahendid ja nende poolt kasutatavad lähenemised on toodud järgnevas tabelis.

Tööriist Kirjeldus Andmebaasid Koduleht Viited
SNPeff SnpEff annoteerib variante kasutades nende asukohta genoomis ning ennustab kodeeringu mõju. Kasutab intervallimetsa lähenemist. ENSEMBL, UCSC ja organismipõhised andmebaasid, näiteks FlyBase, WormBase ja TAIR. http://snpeff.sourceforge.net/SnpEff_manual.htm [21]
ANNOVAR Antud tööriist on sobilik selekteerimiseks väikest hulka funktsionaalselt olulisi variante. Annoteerimiseks kasutab mutatsiooni ennustuse meetodit. UCSC, RefSe ja Ensembl. http://www.openbioinformatics.org/annovar/ [22]
PhD-SNP SVM-põhine meetod, mis kasutab BLASTi abil saadud järjestuse informatsiooni. UniRef90 http://snps.biofold.org/phd-snp/ [23]
PolyPhen-2 Sobilik ennustamaks missenss-mutatsioonide kahjulike mõjusid. Ennustamiseks kasutab järjestuste konserveerumist, aminohappeasenduste paiknemist struktruuris ja Swiss-Prot annotatsiooni. UniPort http://genetics.bwh.harvard.edu/pph2/ [24]
F-SNP Ennustab arvutuslikult SNPde funktsioone haigusseoseliste uuringute jaoks. PolyPhen, SIFT, SNPeffect, SNPs3D, LS-SNP, ESEfinder, RescueESE, ESRSearch, PESX, Ensembl, TFSearch, Consite, GoldenPath, Ensembl, KinasePhos, OGPET, Sulfinator, GoldenPath http://compbio.cs.queensu.ca/F-SNP/ [25]
AnnTools Loodud tuvastamaks uusi SNP/SNV, INDEL ja SV/CNV mutatsioone. AnnTools otsib kattuvusi regulatoorsete elementide, haiguste või teiste tunnustega seotud lookusteda, tuntud segmentaalsete duplikatsioonide ja artefaktide tekkimise suunas kalduvate regioonidega. dbSNP, UCSC, GATK refGene, GAD, genoomsete variantide andmebaas, nimekirjad konserveerunud transkriptsioonifaktoritest, miRNAst, sagedastest struktuursetest genoomsetest variantidest. http://anntools.sourceforge.net/ [26]
SIFT SIFT on tööriist, mis ennustab, kas aminohappeasendus mõjutab valgu funktsiooni. SIFT kasutab ennustamiseks järjestuste homoloogiat. PROT/TrEMBL või NCBI. http://blocks.fhcrc.org/sift/SIFT.html [27]

Viited

  1. S. Aubourg, P. Rouzé, “Genome annotation”, Plant Physiol. Biochem, 2001, Vol 29, pp. 181−193
  2. Terry H. Shena, Christopher S. Carlsonb, Peter Tarczy-Hornoch, “SNPit: A federated data integration system for the purpose of functional SNP annotation”, Elsevier, 2009, Vol. 95, pp. 181–189
  3. N. C. Oraguzie, E.H.A. Rikkerink, S.E. Gardiner, H.N. de Silva (eds.), “Association Mapping in Plants”, Springer, 2007
  4. Capriotti E, Nehrt NL, Kann MG, Bromberg Y. (2012). "Bioinformatics for personal genome interpretation" (PDF). Briefings in Bioinformatics. 13: 495–512. PMID 22247263.{{cite journal}}: CS1 hooldus: mitu nime: autorite loend (link)
  5. P. H. Lee, H. Shatkay, “Ranking single nucleotide polymorphisms by potential deleterious effects”, Computational Biology and Machine Learning Lab, School of Computing, Queen’s University, Kingston, ON, Canada
  6. M. J. Li, J. Wang, “Current trend of annotating single nucleotide variation in humans – A case study on SNVrap”, Elsevier, 2014, pp. 1–9
  7. Z. Wang, M. Gerstein, M. Snyder, “RNA-Seq: a revolutionary tool for transcriptomics”, Nat. Rev., 2009, Vol. 10(1), pp. 57–63
  8. M. Halvorsen, J.S.Martin, S. Broadaway, A. Laederach, “Disease-Associated Mutations That Alter the RNA Structural Ensemble”, PLoS Genet., 2010, Vol. 6(8), pp. 57–63
  9. Y. Wan, K. Qu, Q. C. Zhang, R. A. Flynn, O. Manor, Z. Ouyang, J. Zhang, R. C. Spitale, M. P. Snyder, E. Segal, H. Y. Chang, “Landscape and variation of RNA secondary structure across the human transcriptome”, Nature, 2014, Vol. 505(7485), pp. 706-709
  10. Z.E. Sauna, C. Kimchi-Sarfaty, “Understanding the contribution of synonymous mutations to human disease”, Nat. Rev. Genet., 2011, Vol. 12 (10), pp. 683–691
  11. M.J. Li, B. Yan, P.C. Sham, J. Wang, “Exploring the function of genetic variants in the non-coding genomic regions: approaches for identifying human regulatory variants affecting gene expression” Brief. Bioinform, 2014, vol.10
  12. J.D. French,M. Ghoussaini, S.L. Edwards, K.B. Meyer, K. Michailidou, S. Ahmed, S. Khan, M.J. Maranian, M. O’Reilly, K.M. Hillman, et al., “Functional variants at the 11q13 risk locus for breast cancer regulate cyclin D1 expression through long-range enhancers” Am. J. Hum. Genet., 2013, vol. 92 (4), pp. 489–503
  13. K. Faber, K. H. Glatting, P. J. Mueller, A. Risch, A. H. Wagenblatt, “Genome-wide prediction of splice-modifying SNPs in human genes using a new analysis pipeline called AASsites” BMC Bioinformatics, 2011, 12(Suppl 4):S2
  14. V. Kumar, H.J. Westra, J. Karjalainen, D.V. Zhernakova, T. Esko, B. Hrdlickova, R. Almeida, A. Zhernakova, E. Reinmaa, U. Vosa, M. H. Hofker, R. S. Fehrmann, J. Fu, S. Withoff, A. Metspalu, L. Franke, C. Wijmenga, “Human disease-associated genetic variation impacts large intergenic non-coding RNA expression”, PLoS Genet., year=2013, Vol. 9 (1)
  15. M. J. Li, J. Wang, “Current trend of annotating single nucleotide variation in humans – A case study on SNVrap”, Elsevier, 2014, pp. 1–9
  16. J. Wu, R. Jiang, “Prediction of Deleterious Nonsynonymous Single-Nucleotide Polymorphism for Human Diseases”, The Scientific World Journal, 2013, 10 pages
  17. N.L. Sim, P. Kumar, J. Hu, S. Henikoff, G. Schneider, P.C. Ng, “Prediction of Deleterious Nonsynonymous Single-Nucleotide Polymorphism for Human Diseases”, Nucleic Acids Res., 2012, W452–W457s
  18. I.A. Adzhubei, S. Schmidt, L. Peshkin, V.E. Ramensky, A. Gerasimova, P. Bork, A.S. Kondrashov, S.R. Sunyaev, “A method and server for predicting damaging missense mutations.”, Nat. Methods, 2010, Vol. 7 (4), pp. 248–249
  19. J.M. Schwarz, C. Rodelsperger, M. Schuelke, D. Seelow, “MutationTaster evaluates disease-causing potential of sequence alterations”, Nat. Methods, 2010, Vol. 7 (8), pp. 575–576
  20. M. J. Li, J. Wang, “Current trend of annotating single nucleotide variation in humans – A case study on SNVrap”, Elsevier, 2014, pp. 1–9
  21. Cingolani, P., Platts, A., Wang, L. L., Coon, M., Nguyen, T., Wang, L., Ruden, D. M. (2012). A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3. Fly, 6(2), 80–92. doi:10.4161/fly.19695
  22. Wang, K., Li, M., & Hakonarson, H. (2010). ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Research, 38(16), e164. doi:10.1093/nar/gkq603
  23. Capriotti E, Calabrese R, Casadio R. (2006). "Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information" (PDF). Bioinformatics. 22: 2729–2734. PMID 16895930.{{cite journal}}: CS1 hooldus: mitu nime: autorite loend (link)
  24. Adzhubei I., Jordan D.M., Sunyaev S.R. (2013). Predicting functional effect of human missense mutations using PolyPhen-2. Curr Protoc Hum Genet. Vol.(7):20. doi: 10.1002/0471142905.hg0720s76
  25. Lee, P. H., & Shatkay, H. (2008). F-SNP: computationally predicted functional SNPs for disease association studies. Nucleic Acids Research, 36(Database issue), D820–D824. doi:10.1093/nar/gkm904
  26. Makarov, V., O’Grady, T., Cai, G., Lihm, J., Buxbaum, J. D., & Yoon, S. (2012). AnnTools: a comprehensive and versatile annotation toolkit for genomic variants. Bioinformatics, 28(5), 724–725. doi:10.1093/bioinformatics/bts032
  27. Ng, P. C., & Henikoff, S. (2003). SIFT: predicting amino acid changes that affect protein function. Nucleic Acids Research, 31(13), 3812–3814