Hot-Deck imputeerimismeetod

Allikas: Vikipeedia
 See artikkel räägib Hot-Deck imputeerimismeetodist, imputeerimise mõiste kohta vaata artiklit Imputeerimine.

Hot-Deck imputeerimismeetod (ingl Hot-Deck imputation method) on üks doonoripõhistest imputeerimismeetoditest. See tähendab, et imputeeritakse reaalselt eksisteeriv väärtus, mis on saadud mõne teise objekti puhul. Antud imputeerimismeetodi puhul on garanteeritud see, et saadud väärtus on ka reaalselt võimalik.[1]

Hot-Deck imputeerimise protseduuri korral on -nda elemendi imputeeritud väärtus andmestikus , kus on juhuslikult valitud doonor kõikvõimalikest doonorelementide hulgast ehk . Kuigi visuaalsel vaatlusel näeb imputeeritud tunnuse jaotus välja üsna loomulik, võib siiski esineda saadud tulemustes imputeerimisnihe. Selline olukord tekib just seetõttu, et vastanud objektid võivad oluliselt erineda mittevastanud objektidest.[1]

Näiteid Hot-Deck imputeerimismeetoditest[muuda | muuda lähteteksti]

Juhuslik Hot-Deck omistus klassis on imputeerimismeetod, kus moodustatakse andmetest kõigepealt doonorgrupid ja seejärel asendatakse puuduv tunnuseväärtus doonorgrupist võetud olemasoleva väärtusega. Sageli on valik tehtud juhuslikult.[2]

Üldise juhusliku Hot-Deck omistuse korral omistatakse puuduvale väärtusele vastanute seast juhuslikult valitud objekti väärtus.[2] Selle meetodi korral objekte gruppideks ei jagata ning tulemus on võrreldes eelmise variandiga robustsem.

Järjestikune Hot-Deck omistus on imputeerimismeetod, kus kõik valimi objektid järjestatakse tausttunnuse järgi ja seejärel läbitakse. Puuduva väärtuse korral omistatakse sellele järjekorras eelneva samasse klassi kuuluva objekti olemasolev väärtus.[2]

Doonorgruppide loomine[muuda | muuda lähteteksti]

Imputeerimist viiakse täpsemate tulemuste saamise eesmärgil tihti läbi mittekattuvates imputeerimisgruppides (ingl donor pools).[3] Need imputeerimisgrupid on moodustatud kasutades andmestiku teisi abitunnuseid, mille väärtuseid on teada kõikide valimiobjektide jaoks.[3] Iga grupi sees rakendatakse tavaliselt üht ja sama imputeerimismeetodit puuduvate väärtuste leidmiseks.[1]

Gruppides imputeeritakse peamiselt kahel põhjusel. Esiteks võivad valimi erinevates alagruppides olla erinevad seosed ja seetõttu tunnus, mis sobib imputeerimistunnuseks ühes grupis, ei ole teises grupis sobilik. Sobilike gruppide määramine ja vajalike abitunnuste välja valimine eeldab head olukorra hindamise võimet ning teema tundmist.[1] Teine põhjus seisneb selles, et alati ei ole kõigi tunnuste jaoks teada ühesugune abiinfo. Mingi kindla imputeerimismeetodi jaoks vajalikud tunnused ei pruugi olla teada kogu valimi jaoks. Näiteks oletame, et leidub tugevalt seotud imputeerimisvektor , kuid ainult ühe hulga korral valimist. Sel juhul saab selle alagrupi korral rakendada mõnda keerulisemat meetodit nagu regressioon- või lähima naabri meetodit. Ülejäänud gruppide imputeerimiseks tuleb kasutada halvemaid imputeerimismeetodeid. Väga vähese abiinfo korral võib viimase abivahendina kasutada ka vastanute keskmisega imputeerimist või Hot-Deck imputeerimist.[1]

Hot-Deck meetodi eelised ja puudused[muuda | muuda lähteteksti]

Vaatamata sellele, et Hot-Deck meetod on praktikas väga laialdaselt kasutusel, pole selle kohta selgeid teoreetilisi tulemusi.[3] Tänapäeval on välja arendatud palju teisi imputeerimismeetodeid, mille teoreetilised omadusi on palju paremini uuritud. Hot-Deck meetodite suureks eeliseks on nende lihtsus ja kiirus, mistõttu rakendatakse seda meetodit eriti suurte andmestike korral. Teiste meetoditega imputeerimine võtab palju rohkem aega, sest nende korral on iga vaatluse jaoks vaja tihtipeale teha palju teisi operatsioone (nt lähima naabri meetodi korral on vaja välja arvutada kaugus puuduvatest väärtustest, et leida kõige lähemad naabrid).[4]

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 1,2 1,3 1,4 Toompere, K. (2009). Imputeerimis- ja kaalumismeetodite mõju hinnangute nihkele. Magistritöö. Tartu Ülikool, matemaatilise statistika instituut.
  2. 2,0 2,1 2,2 Prostakova, J. (2007). Mittevastamine ja selle kompenseerimine. Bakalaureusetöö. Tartu Ülikool, matemaatilise statistika instituut.
  3. 3,0 3,1 3,2 Andridge, R. R., Little , R. J. A. (2010). A Review of Hot Deck Imputation for Survey Non-response. Int Stat Rev. 2010 aprill, 78(1), 40–64. doi: 10.1111/j.1751-5823.2010.00103.x
  4. Kowarik, A., Templ , M. (2016). Imputation with the R Package VIM. Journal of Statistical Software. 2016 oktoober, 74(7). doi: 10.18637/jss.v074.i07