Mine sisu juurde

Üldistatud lineaarne mudel

Allikas: Vikipeedia
Logistiline regressioon on üks näide üldistatud lineaarsest mudelist. Tunnuste komplekti X kasutatakse Y prognoosimiseks, kusjuures et siduda X ja Y omavahel, tuleb Y teisendada skaalale logit-seosefunktsiooniga. Pildil x- ja y-teljed on kujutatud vastupidi tavapärasele tähistusele.

Üldistatud lineaarne mudel (inglise keeles generalized linear model, lühend GLM) on analüüsimeetod statistikas, mis võimaldab mingit uuritavat tunnust Y prognoosida teiste, sõltumatute tunnuste X abil, kusjuures erinevalt lineaarregressioonist võimaldab üldistatud lineaarne mudel sobitada lineaarse mudeli ka mittelineaarse seose peale. GLM sobitab lineaarse mudeli uuritavale seosele seosefunktsiooni abil.[1]

Lihtne lineaarregressioon hindab uuritava tunnuse väärtust, kui see on lineaarkombinatsioon sõltumatu tunnuse väärtustest (vaadeldud väärtused). Sellisel juhul allub normaaljaotusele.[2] Olgu meil näiteks lihtne lineaarne mudel, mis hindab õhutemperatuuri põhjal rannas olevate inimeste arvu. Iga 10 °C muutus õhutemperatuuris toob kaasa 1000-pealise muutuse rannasviibijate arvus. Kui on rand, kus inimesi on alguses 50, siis 10 °C languse korral annaks selline lineaarne mudel rannasviibijate arvu hinnanguks võimatu –950 inimest.

Üldistatud lineaarne mudel võimaldab kahte tunnust omavahel siduda nii, et uuritav tunnus allub mingisugusele juhuslikule jaotusele, mis ei pea olema normaaljaotus.[2] Meie näite kohaselt tähendaks see, et õhutemperatuuri muutudes rannasviibijate arv võib muutuda mittelineaarselt.

Jätkates sama näidet, olgu meil nüüd mingisugune üldistatud lineaarne mudel. 10-kraadise õhutemperatuuri languse korral selline mudel ei anna meile hinnanguks mitte –950 aktiivset rannasviibijat, vaid esialgsest 50 inimesest poole vähem ehk 25 rannasviibijat. Samas esialgse temperatuuriga võrreldes 10-kraadise tõusu korral oleks rannas jällegi 1000 inimest rohkem. On näha, et konstantse muutuse korral muutub mittelineaarselt. Selles konkreetses näites allub Poissoni jaotusele.

Üldistatud lineaarne mudel võimaldab sellist mittelineaarset seost esitada lineaarsel kujul, teisisõnu oleks justkui lineaarne. Sellist teisendamist üldistatud lineaarses mudelis võimaldab mudelis kasutatav seosefunktisoon (sellest täpsemalt allpool).

Üldistatud lineaarne mudel eeldab, et uuritav tunnus allub mingisugusele jaotusele, mis kuulub eksponentjaotuste perre (nt normaaljaotus, eksponentjaotus, Bernoulli jaotus, Poissoni jaotus).[3] Sellise jaotuse keskväärtus sõltub sõltumatu tunnuse väärtustest.

, kus:

  • on keskväärtus korral;
  • on seosefunktsioon;
  • on lineaarkombinatsioon tundmatutest parameetritest .

GLM-i eesmärk on hinnata suurust ehk keskväärtust. Parameetri hindamiseks kasutatakse üldiselt suurima tõepära meetodit, kvaasitõepära või Bayesi meetodeid.

Mudeli komponendid

[muuda | muuda lähteteksti]

Üldistatud lineaarne mudel koosneb kolmest komponendist.[4][5]

  1. Juhuslik komponent (random component). Määrab uuritava tunnuse () jaotuse, kui sõltub -st (tähistatakse kui ). See jaotus kuulub eksponentsjaotuste perre. jaotuse keskväärtus on , mille hindamine ongi mudeli eesmärk.
  2. Süsteemne komponent (systematic component). Määrab mudeli sõltumatute tunnuste hulga, kasutades selleks lineaarkombinatsiooni .
  3. Seosefunktsioon (link function). Seosefunktsioon on funktsioon, mis seob juhusliku ja süsteemse komponendi, täpsemini keskväärtuse ja , moodustades seeläbi lineaarfunktsiooni: .

Seosefunktsioon

[muuda | muuda lähteteksti]

Sõltuvalt uuritavate andmete olemusest, on valida mitme seosefunktsiooni vahel.

Tuntud teoreetilised jaotused ja neile vastavad kanoonilised seosefunktsioonid
Jaotus Kasutusala Seosefunktsiooni nimi Seosefunktsioon
Normaaljaotus Lineaarkasvule alluvad andmed. Samasusteisendus
Poisson Kindlas aja- või ruumiühikus toimunud sündmuste arv. log
Bernoulli Üksiku jah/ei sündmuse tulem. logit
Binoom "Jah" sündmuste arv kõikides toimunud jah/ei sündmustes. logit
  1. "Link function". Statistics How To. Vaadatud 13. detsember 2022.
  2. 2,0 2,1 Dobson, Annette J., Barnett, Adrian G. (2008). An Introduction to Generalized Linear Models, Third Edition. Chapman and Hall/CRC.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  3. "Exponential family". Sõnaveeb. Vaadatud 13. detsember 2022.[alaline kõdulink]
  4. Käärik, Meelis (2020). "Üldistatud lineaarsed mudelid". Tartu Ülikooli matemaatika ja statistika instituut. Vaadatud 13. detsember 2022.
  5. "Generalized Linear Models: Advanced Methods for Data Analysis" (PDF). Carnegie Mellon University. 2014. Vaadatud 13. detsember 2022.