Kasutaja:EdLainelo/Järjestuse joondamine

Järjestuse joondamine[muuda | muuda lähteteksti]

Bioinformaatikas järjestuste joondus (ingl. sequence alignment) on viis, mille abil korraldatakse DNA, RNA või proteiini nii, et leida kohad, kus homoloogia kahe (ingl. pairwise sequence alignment) või rohkema järjestuse vahel on selgelt tuvastatav. Joondatud nukleotiidide või aminohapete järjestusi kujutatakse tavaliselt maatriksi ridana ja veerguna, mille põhjal arvutatakse järjestuste sarnasust (ingl. sequence similarity) joonduse skoori kaudu.

Järjestuse joondus võib olla vahedega (ingl. gapped alignment) või vahedeta (ingl. ungapped alignment), mis omakorda võivad mõjutada algoritmi ja lõpp-joonduse skoori (ingl. alignment score).^[1]

Paarikaupa järjestuse joondamine[muuda | muuda lähteteksti]

Paarikaupa järjestuse joondamise (ingl. Pairwise sequence alignment) meetodit on kasutatud selleks, et leida parima sobivusega joondus järjestuste vahel. Paarikaupa joondust saab rakendada vaid kahe järjestuse korraga, kus äärmuslikku täpsust pole vaja (näiteks sisendjärjestust võrreldes andmebaasijärjestustega).^[7] Peamised meetodid, mida kasutatakse paarikaupa joondamisel, on punktmaatriksid ja dünaamilised algoritmid.^[2]

Skoorimaatriksid[muuda | muuda lähteteksti]

Joonduse skoori leidmiseks kasutatakse erinevaid skoorimaatrikseid. Millist maatriksit on kõige parem kasutada, sõltub evolutsioonilisest kaugusest. Tavaliselt kasutatakse LOG-ODDS, BLOSUM ja PAM skoorimaatrikseid.^[1]

LOG-ODDS skoorimaatriks[muuda | muuda lähteteksti]

Selleks, et koostada log-odds skoorimaatriks (ingl. substitution matrix), on vaja jagada tegelik i ja j aminohapete kohakuti esinemise suhteline sagedus (f_ij) eeldatava i ja j aminohapete kohakuti esinemise suhtelise sagedusega nende juhuslikul kohakuti paigutamisel (f_i × f_j) ning seejärel võtta tulemus kahendlogaritmi.^[1]

$S_{ij}=\log _{2}{f_{ij} \over f_{i}\times f_{j}}$

PAM skoorimaatriks[muuda | muuda lähteteksti]

PAM skoorimaatriksi koostas Margaret Dayhoff aastal 1978^[6]. Nimetus tuleb ühikust, mida kasutatakse selle tüüpi maatriksil - PAM (ingl. Point Accepted Mutations). On olemas 1 kuni 500 PAM maatriksit (PAM1 - PAM500). PAM maatriksite mõõtühik on PAM.^[7] Maatriks näitab, mitu aminohappe asendust on toimunud 100 aminohappe kohta. Teiste sõnadega, PAM1 modelleerib olukorda, kus kahes valgus asendati 1% aminohapetest mingi aja jooksul, ja PAM500 modelleerib olukorda, kus 500% aminohapetest kahes valgus asendati kindla aja jooksul. Põhjendus, miks asendust võib olla rohkem kui 100%, on see, et aminohapped võivad olla asendatud korduvalt samas positsioonis.^[1]

BLOSUM skoorimaatriks[muuda | muuda lähteteksti]

BLOSUM-tüüpi skoorimaatriks (ingl. BLOck SUbstitution Matrix) toimib vastupidiselt võrreldes PAM-skoorimaatriksiga. BLOSUM-maatriks näitab, kui identsed olid valgud selle koostamise hetkel. Näiteks BLOSUM62 näitab, et valgud olid 62% sarnased.^[1]

Joondamise algoritmid[muuda | muuda lähteteksti]

Dotplot[muuda | muuda lähteteksti]

Zinc-finger proteiini aminohapete dotplot

Dotplot on algoritm, mida kasutatakse järjestuse sarnasuse leidmiseks ja selle visualiseerimiseks. Dotplot'i algoritmis koostatakse maatriks, kus read ja veerud tähistavad nukleotiidi või aminohappeid, mis esinevad uuritavates järjestustes. Kui nukleotiidid või aminohapped on identsed, värvitakse vastav ruut tumedaks. Seejärel joonistatakse maatriksist läbi joon, mis võib liikuda paremale, alla või diagonaalselt. Joon, mis läbib kõige rohkem värvitud ruute, illustreerib joondust, millel on suurim joonduse skoor.^[1]

Dotploti joonistamiseks võib kasutada järgmised veebipõhiseid programme: Dotter, Dotlet ja GEPARD.^[2][3][4]

Dünaamilised algoritmid[muuda | muuda lähteteksti]

Esimest täielikku joonduse dünaamilist algoritmi (ingl. global alignment) kirjeldasid aastal 1970 Saul B. Needleman ja Christian D. Wunsch, ning praegu tuntakse seda algoritmi Needleman-Wunsch algoritmina. Aastal 1981 arendasid Temple F. Smith ja Michael S. Waterman välja Needleman-Wunsch algoritmi, et leida parimaid kohalikke (ingl. local alignment) ja ülekattega joondusi (ingl. semiglobal alignment). Seda algoritmi tuntakse Smith-Watermani algoritmina. Tänapäeval kasutatakse peamiselt Smith-Watermani algoritmi kõige rohkem.^[1]

Smith-Watermani algoritm algab joondusmaatriksi initsialiseerimisega, kus servadel on järjestused. Siis täidetakse joondusmaatriks skooridega, vaadates kas suurem kumulatiivne skoor tekkib liikudes alla, paremale või diagonaalselt; kui summaarne skoor on negatiivne, siis täidetakse ruutu väärtusega 0.^[1]

Heuristilised algoritmid[muuda | muuda lähteteksti]

BLAST kasutab heuristilisi meetodeid, otsides esialgu kahe järjestuse vahel üles lühikesed vasted. Seda esmast protsessi kutsutakse seemendamiseks. Teise etapina alustab algoritm kohaliku joondusega. Järjestustes sarnaseid kohti otsides on keskse tähtsusega nn sõnad. Näiteks kui valgu järjestus peaks olema GASTK, siis BLASTi vaikimisi määratud otsingutingimustega oleksid sõnade pikkused 3 tähte ning näidisjärjestuse alusel oleksid need GAS, AST ja STK. BLASTi heuristiline algoritm leiab kõik sagedased kolmetähelised sõnad, mis esinevad nii huvipakkuvas järjestuses kui ka andmebaasis olevas järjestuses. Saadud tulemust kasutatakse järjestustevahelise joonduse koostamiseks. Alles nüüd lisatakse sagedastele sõnadele ülejäänud vähemsagedased sõnad. Kontrollides nüüd uusi sõnu skoorimaatriksis (tavaliselt BLOSUM62, ingl k BLOck SUbstitution Matrix), peavad need ületama ette määratud täpsuslävendi T. Sobilikke koostatud sõnu võrreldakse nüüd andmebaasis olevate järjestustega. Selle, millist leitud vastet esitatakse tulemustesse, määrab ära parameeter T. Kui seemendamine on lõpule viidud, hakkab BLAST saadud järjestusi mõlemas suunas pikendama. Iga pikendamine kas suurendab või vähendab järjestuste sobivust kirjeldavat skoori, mis peab olema suurem kui täpsuslävend T. Muul juhul saadud joondust kasutajale ei esitata.^[8]

Viited[muuda | muuda lähteteksti]

Remm, M. (2015). Bioinformaatika. Tartu Ülikooli Kirjastus.
Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (2nd ed.). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 978-0-87969-608-5.
Sonnhammer, E. L.; Durbin, R. (1995-12-29). "A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis". Gene. 167 (1–2): GC1–10. doi:10.1016/0378-1119(95)00714-8. ISSN 0378-1119. PMID 8566757.
Krumsiek, Jan; Arnold, Roland; Rattei, Thomas (2007-04-15). "Gepard: a rapid and sensitive tool for creating dotplots on genome scale". Bioinformatics. 23 (8): 1026–1028. doi:10.1093/bioinformatics/btm039. ISSN 1367-4803. PMID 17309896.
Junier, T., Pagni, M. (2000). Dotlet: diagonal plots in web browser. Bioinformatics, 16: 178-179
Dayhoff MO, Schwartz RM, Orcutt BC (1978). "A model of Evolutionary Change in Proteins". Atlas of protein sequence and structure (volume 5, supplement 3 ed.). Washington, DC.: National Biomedical Research Foundation. pp. 345-358, ISBN 978-0-912466-07-1.
Pevsner J (2009). "Pairwise Sequence Alignment". Bioinformatics and Functional Genomics (2nd. ed.). Wiley-Blackwell. pp. 56-68. ISBN 978-0-470-08585-1.
Bioinformatics : Sequence and Genome Analysis, Second Edition