Imputeerimine (geneetika)

Imputeerimine on statistikas kasutamist leidev protsess, mille käigus püütakse leida vaatluste käigus fikseerimata jäänud, kuid tegelikult esinevaid väärtusi. Geneetikas väljendub see mitteidentifitseeritud genotüüpide olemasolu ennustamises.

Genotüüpide imputeerimine viitab kõige sagedamini olukorrale, kui on haplotüüpide referentspaneel tihedal SNP-de kogumikul, mida kasutatakse selleks, et imputeerida uuritavate indiviidide proovi, mis on olnud genotüübitud SNP-de alamhulga juures.

Genotüüpide imputeerimist võib läbi viia terve genoomi ulatuses kui osana ülegenoomsest assotsiatsiooniuuringust või konkreetsemas regioonis kui osa fine-mapping'u uuringust.

Ülegenoomse uuringu käigus vaadeldakse tavaliselt 100 000 kuni 1 000 000 SNP positsiooni, kuid on arvatud, et selliseid varieeruvaid kohti võib inimgenoomis olla üle 10 miljoni.^[1] Seega on imputeerimise eesmärgiks ennustada meile otseselt teadmata SNP-sid võrreldes sekveneeritud andmeid referentsgenoomidega.

See suurendab uuringu võimsust võimaldades lahendada või fine-mapp'ida tõenäosuslikke geenivariante ja hõlbustada metaanalüüsi.

HapMap2 haplotüüpe on laialt kasutatud imputeerimise läbiviimiseks nende proovide uuringutes, millel on esivanemad lähedased nendele, mis on HapMapi paneelides.

Suurem osa uuringuid on kasutanud kaheastmelist protseduuri, mis algab puuduvate genotüüpide imputeerimisega referentspaneeli alusel sealjuures arvestades välja fenotüübi infot.

Imputeeritud genotüübid, iga SNP koos selle määramatusega, on seejärel testitud seostumisele huvipakkuva fenotüübi vastu teises faasis.

Kahe-astmelise protsessi lähenemise eelis seisneb selles, et erinevad fenotüübid võivad olla testitud seostumisele ilma, et oleks vaja imputeerimist veelkord läbi viia.

Seda saavutatakse kasutades populatsioonis kindlaks määratud haplotüüpe, mis saadakse nt HapMap-st või inimese 1000 Genoomi Projektist. See võimaldab testida algselt genotüüpimata geenivariante, mis on seotud huvipakkuva tunnusega.

Genotüübi imputeerimine aitab oluliselt kitsendada tõenäosuslikke geenivariante ülegenoomsetes assotsiatsiooniuuringutes (ing. k Genome-Wide Association Studies).

Genotüüpimise kiibid, mida kasutatakse ülegenoomsetes assotsiatsiooniuuringutes, baseeruvad SNP-de märkimisel ja seetõttu ei genotüübi otseselt kogu variatsiooni genoomis.

Genotüüpide imputeerimine referentspaneeli vastu suurendab genoomilise variatsiooni kattuvust originaalsete genotüüpide suhtes.

Selle tulemusena meie saame hinnata rohkemate SNP-de mõju võrreldes originaalse mikrokiibiga.

Imputeerimine on hõlbustanud erinevatel kiipidel genotüübitud andmekogude metaanalüüsi suurendades olemasolevate variantide kattuvust.^[2]

Meetodid[muuda | muuda lähteteksti]

Eeldades, et meil on andmed L dialleelsest autosoomsest SNP-st, on kaks alleeli iga SNP juures kodeeritud 0-ks ja 1-ks.

Laseme H-l tähistada N haplotüüpide kogumikke nende L SNP-de juures ja laseme G-l tähistada genotüüpide kogumikke nende L SNP-de juures K indiviidides koos G_i = {G_il,…, G_iL} tähistades i-nda indiviidi genotüüpe.

Indiviidi genotüübid on vaadeldud, kas nii, et G_ik ∈ {0,1,2} või need puuduvad nii, et G_ik = puudub. Peamine eesmärk siin on nende genotüüpimata SNP-de genotüüpide ennustamises, mis pole olnud genotüübitud uuritavas proovis, aga seal on tihti samuti ka juhuslikult puuduvad genotüübid. Meie eeldame, et ahelate joondamine andmekogude vahel on läbi viidud.^[2]

Alt text — 1. Genotüübi andmed puuduvate andmetega tüübitud SNP-del (küsimärgid hallil foonil); 2. assotsieerumine tüübitud SNP-del ei pruugi viia puhta signaalini; 3. iga proov on faasitud ja haplotüübid on modelleeritud kui mosaiik nendest haplotüüpide referentspaneelil; 4. referentshaplotüübid, näiteks HapMap; 5. referentshaplotüüpe kasutatakse selleks, et imputeerida alleele proovidesse, et luua imputeeritud genotüüpe, mis on viirutatud helesinise värviga (värvikoodiga: #9ac3e1); 6. imputeeritud SNP-del assotsieerumise testimine võib võimendada signaali

Omadused	imputeerimismeetodid
	IMPUTE versioon 1	IMPUTE versioon 2.2	MAcH v1.0.16	fastPHAse v1.4.0 BiMBAM v0.99	BeAGLe v3.2
Referentspaneelid
Võib kasutada haplotüüpide referentspaneeli	JAH	JAH	JAH	JAH	JAH
Võib kasutada genotüübitud referentspaneeli	EI	JAH	JAH	JAH	JAH
Kaks haplotüüpi või genotüübi referentspaneeli võib olla kasutatud samaaegselt	EI	JAH	EI	EI	EI

Uuritavad proovid
Võivad võtta määramata genotüüpe	EI	JAH	EI	EI	JAH
Võib mahutada kolmikuid ja vastavaid proove	EI	EI	EI	EI	kolmikud ja kaksikud
Võivad imputeerida autosoomsete haplotüüpide uuritavat proovi	JAH	JAH	EI	EI	JAH
Võib imputeerida X kromosoomile	JAH	JAH	EI	EI	JAH

Programmi funktsioonid
Teeb nii faasimist kui ka imputeerimist	EI	JAH	JAH	JAH	JAH
Võib imputeerida juhuslikult puuduvaid genotüüpe	EI	JAH	JAH	JAH	JAH
Informatsiooni mõõtmed	JAH	JAH	JAH	EI	JAH

Kasutusalad[muuda | muuda lähteteksti]

Võimsuse suurendamine[muuda | muuda lähteteksti]

Imputeerimine võib suurendada võimsust kuni 10% ainult genotüübitud SNP-de ülegenoomsetes assotsiatsiooniuuringutes^[3]. Teised simulatsioonid on näidanud, et suurim kasu toimub haruldaste SNP-de heaks, mida on raskem märgistada^[4].

Fine-mapping[muuda | muuda lähteteksti]

Imputeerimine võimaldab kõrge detailsusega vaadet seotud regioonist ja suurendab võimalust SNP-d otseselt identifitseerida.

Imputeeritud SNP-d, mis näitavad suuri seostumisi, võivad olla paremad kandidaadid replikatsiooniuuringute jaoks.

Limiteeriv faktor, mis määrab fine-mapping'u täpsust on rekombinatsiooni sündmuste arv vaadeldavas regioonis või aheldustasakaalutus (ing. k linkage disequilibrium) vaadeldavas regioonis.

Suurenev proovi maht või geenikaardistus (ing. k gene mapping) populatsioonides madalamate aheldustasakaalutuste tasemetega suurendab võimalust identifitseerida tõest juhuslikku varianti.

Geenikaardistamine on protsess, mille käigus püütakse identifitseerida geneetilist elementi, mis vastutab haiguse eest.^[2]

Metaanalüüs[muuda | muuda lähteteksti]

Kui erinevad kohordid on kasutanud erinevaid genotüüpimise mikrokiipe, siis imputeerimine aitab tasakaalustada SNP-de komplekti igas uuringus.

Saadud info kombineeritakse metaanalüüsis iga SNP juures selleks, et suurendada võimsust (ing k boosting power).

Selline lähenemine on olnud edukas mitmete uute lookuste identifitseerimises tervele hulgale erinevatele tunnustele^[5].

Kohort analüüsitakse eraldi, kuna see võimaldab identifitseerida kohortspetsiifilisi ühismuutujaid.

Tulemused kombineeritakse kasutades fixed-effects või random-effects mudeleid.

Tüpiseerimata variatsioonide imputeerimine[muuda | muuda lähteteksti]

On võimalik ka nende SNP-de tüpiseerimine, mis pole veel olnud tüpiseeritud haplotüübi referentspaneelile ega uuritavale proovile. Mõned meetodid võimaldavad seda teha tänu genealoogilisele seosele uuritava proovi ja haplotüüpide vahel^[4] vahel sellel ajal kui teiste eesmärgiks on identifitseerida haplotüübi mõjusid otsesemalt.

Need meetodid võivad viia võimsuse (ing. k boosting power) suurenemiseni, eriti kui juhuslik variant on haruldane või on lokaalne ehk kohtspetsiifiline heterogeensus signaali assotsieerumises.

mitte-SNP variatsiooni imputeerimine[muuda | muuda lähteteksti]

Üldist imputeerimise põhimõtet kergelt rakendatakse ka muudele geneetilistele variatsioonidele nagu nt inimese leukotsüüdi antigeeni alleelidele^[6].

Lähestikku asuvad SNP-d kantakse enamasti koos ning samuti kantakse edasi ka lähestikku asuvad geenid.

Tõenäoliselt mahukate imputeerimiste läbiviimisel sekveneerimisel baseerunud projektides (nagu nt 1000 Genoomi Projekt) avastatud väiksed insertsioonid ja deletsioonid (indelid) hakkavad olema laialt kasutuses ülegenoomsete assotsiatsiooniuuringute analüüsis.

Juhuslikult puuduvate andmete imputeerimine ja genotüüpimise käigus tekkinud vigade korrigeerimine[muuda | muuda lähteteksti]

Paljud laialdaselt kasutuses olevad imputeerimise programmid võimaldavad imputeerida juhuslikult puuduvaid genotüüpe, mis võivad toimuda kui identifitseerida genotüüpe genotüüpimiskiipidel. Genotüüpimise veakoefitsiendid (veamäärad) on tihti väga väiksed (0,2% WTCCC uuringus), mistõttu seda tüüpi imputeerimine mitte ainult ei suurenda võimsust, vaid ka võib aidata kontrollida valehäireid (ing. k false positives) SNP-del, mille pärast genotüüpide identifitseerimine (ing. k genotype calling) on raske.

Hiljuti lisati BEAGLE'i^[7] mudelile^[8] uus funktsioon: esitleda genotüübi intensiivsuse (ing. k genotype intensity) andmeid nii, et genotüübid võivad olla identifitseeritud kasutades aheldustasakaalutuse informatsiooni SNP-de vahel ja see võimaldab vähendada vigade hulga genotüüpimisel.

Imputeerimiseks kasutatavad arvutiprogrammid[muuda | muuda lähteteksti]

On mitmeid arvutiprogramme genotüüpide imputeerimiseks mikrokiibilt referentspaneelile.

Näiteks on olemas 1000 Genoomi projekti haplotüübid. IMPUTE versioon 1, mis baseerub peidetud Markovi mudeli laienditel ning see oli algselt loodud selleks, et simuleerida liituvaid puid^[9]^[10](ing. k coalescent trees) ja modelleerida aheldustasakaalutust ning hinnata rekombinatsiooni taset^[11].^[2]

Statistilised mudelid[muuda | muuda lähteteksti]

Genotüübi imputeerimise meetodid on praegu laialdaselt kasutuses ülegenoomsete assotsiatsiooniuuringute analüüsis.

Suurem osa tänapäeva imputeerimise analüüsidest kasutavad HapMapi kui referentsandmestikku, aga uued referentspaneelid (sellised, mis kontrollivad genotüübituid mitmetel SNP kiipidel ja tihedalt tüübitud proovidel "1000 genoomi projektis") võimaldavad varsti laialdasemat SNP-del olla imputeeritud suurema täpsusega - sellega suurendades võimsust.

Genotüübi imputeerimise meetod (IMPUTE versioon 2) on disainitud selleks, et lahendada nende uute andmestikega seotud raskusi.

Selle lähenemise peamiseks innovatsiooniks on paindlik modelleerimise raamistik (ing. k modelling framework), mis suurendab täpsust ja ühendab informatsiooni mitmete referentspaneelide vahel sellel ajal jäädes arvuti protsessori poolt teostatavaks.

IMPUTE versioon 2 saavutab suuremat täpsust kui teised meetodid sellel ajal kui HapMap pakub ainsat referentspaneeli, aga sellegipoolest paneeli suurus piirab uuendusi, mis võiksid olla tehtud.

Imputeerimise täpsus võib olla suuresti optimeeritud laiendades referentspaneeli, et mahutada endasse tuhandeid kromosoome, mistõttu IMPUTE versioon 2 omab eelist teiste meetodite ees sellest aspektist, mõlemates nii haruldastes kui ka tavalistes SNP-des, üleüldiste vigade hulgaga, mis on 15–20% madalamad võrreldes oma efektiivsuse poolest lähimate konkureerivate meetoditega.

Üks eriti raskusi tekitav aspekt järgmise põlvkonna assotsiatsiooniuuringutes on integreerida erinevatel SNP-del genotüübitud informatsiooni mitmete referentspaneelide seas.^[2]

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

↑ Genotype Imputation
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 Jonathan Marchini ja Bryan Howie (juuli 2010). Genotype imputation for genome-wide association studies. Nature Reviews Genetics 11, 499–511
↑ C. C. A. Spencer, Z. Su, P. Donnelly ja J. Marchini (2009). Designing genome-wide association studies: sample size, power, imputation, and the choice of genotyping chip. PLoS Genet. 5, e1000477
↑ ^4,0 ^4,1 J. Marchini, B. Howie, S. Myers, G. McVean ja P. Donnelly (2007). A new multipoint method for genome-wide association studies by imputation of genotypes. Nature Genet. 39, 906-913
↑ E. Zeggini (2008). Meta-analysis of genome-wide association data and large-scale replication identifies additional susceptibility loci for type 2 diabetes Nature Genet. 40, 638–645
↑ S. Leslie, P. Donnelly ja G. McVean (2008). A statistical method for predicting classical HLA alleles from SNP data Am. J. Hum. Genet. 82, 48–56
↑ S. Browning ja B. Browning (2007). Rapid and accurate haplotype phasing and missing-data inference for wholegenome association studies by use of localized haplotype clustering Am. J. Hum. Genet. 81, 1084–1097
↑ B. L. Browning ja Z. Yu (2009). Simultaneous genotype calling and haplotype phasing improves genotype accuracy and reduces false-positive associations for genomewide association studies Am. J. Hum. Genet. 85, 847–861
↑ M. Stephens ja P. Donnelly (2000). Inference in molecular population genetics J. R. Statist. Soc. B 62, 605–635
↑ P. Fearnhead ja P. Donnelly (2001). Estimating recombination rates from population genetic data Genetics 159, 1299–1318
↑ N. Li ja M. Stephens (2003). Modeling linkage disequilibrium and identifying recombination hotspots using singlenucleotide polymorphism data Genetics 165, 2213–2233

[1] Genotype Imputation

[Gen-imputation-NRG-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 Jonathan Marchini ja Bryan Howie (juuli 2010). Genotype imputation for genome-wide association studies. Nature Reviews Genetics 11, 499–511

[Designing_GWAS-3] C. C. A. Spencer, Z. Su, P. Donnelly ja J. Marchini (2009). Designing genome-wide association studies: sample size, power, imputation, and the choice of genotyping chip. PLoS Genet. 5, e1000477

[Multipoint_method-4] 4,0 ^4,1 J. Marchini, B. Howie, S. Myers, G. McVean ja P. Donnelly (2007). A new multipoint method for genome-wide association studies by imputation of genotypes. Nature Genet. 39, 906-913

[Meta-analysis_of_GWA-5] E. Zeggini (2008). Meta-analysis of genome-wide association data and large-scale replication identifies additional susceptibility loci for type 2 diabetes Nature Genet. 40, 638–645

[Predicting_HLA_alleles-6] S. Leslie, P. Donnelly ja G. McVean (2008). A statistical method for predicting classical HLA alleles from SNP data Am. J. Hum. Genet. 82, 48–56

[MAM_with_Markov_chains-7] S. Browning ja B. Browning (2007). Rapid and accurate haplotype phasing and missing-data inference for wholegenome association studies by use of localized haplotype clustering Am. J. Hum. Genet. 81, 1084–1097

[Genotype_calling,_haplotype_phasing-8] B. L. Browning ja Z. Yu (2009). Simultaneous genotype calling and haplotype phasing improves genotype accuracy and reduces false-positive associations for genomewide association studies Am. J. Hum. Genet. 85, 847–861

[Inference-9] M. Stephens ja P. Donnelly (2000). Inference in molecular population genetics J. R. Statist. Soc. B 62, 605–635

[Recombination_rates-10] P. Fearnhead ja P. Donnelly (2001). Estimating recombination rates from population genetic data Genetics 159, 1299–1318

[Modeling_LD-11] N. Li ja M. Stephens (2003). Modeling linkage disequilibrium and identifying recombination hotspots using singlenucleotide polymorphism data Genetics 165, 2213–2233

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]