Üldistatud lineaarne mudel

Logistiline regressioon on üks näide üldistatud lineaarsest mudelist. Tunnuste komplekti X kasutatakse Y prognoosimiseks, kusjuures et siduda X ja Y omavahel, tuleb Y teisendada $[0...1]$ skaalale logit-seosefunktsiooniga. Pildil x- ja y-teljed on kujutatud vastupidi tavapärasele tähistusele.

Üldistatud lineaarne mudel (inglise keeles generalized linear model, lühend GLM) on analüüsimeetod statistikas, mis võimaldab mingit uuritavat tunnust Y prognoosida teiste, sõltumatute tunnuste X abil, kusjuures erinevalt lineaarregressioonist võimaldab üldistatud lineaarne mudel sobitada lineaarse mudeli ka mittelineaarse seose peale. GLM sobitab lineaarse mudeli uuritavale seosele seosefunktsiooni abil.^[1]

Olemus[muuda | muuda lähteteksti]

Lihtne lineaarregressioon hindab uuritava tunnuse $Y$ väärtust, kui see on lineaarkombinatsioon sõltumatu tunnuse $X$ väärtustest (vaadeldud väärtused). Sellisel juhul $Y$ allub normaaljaotusele.^[2] Olgu meil näiteks lihtne lineaarne mudel, mis hindab õhutemperatuuri põhjal rannas olevate inimeste arvu. Iga 10 °C muutus õhutemperatuuris toob kaasa 1000-pealise muutuse rannasviibijate arvus. Kui on rand, kus inimesi on alguses 50, siis 10 °C languse korral annaks selline lineaarne mudel rannasviibijate arvu hinnanguks võimatu –950 inimest.

Üldistatud lineaarne mudel võimaldab kahte tunnust omavahel siduda nii, et uuritav tunnus $Y$ allub mingisugusele juhuslikule jaotusele, mis ei pea olema normaaljaotus.^[2] Meie näite kohaselt tähendaks see, et õhutemperatuuri $X$ muutudes rannasviibijate arv $Y$ võib muutuda mittelineaarselt.

Jätkates sama näidet, olgu meil nüüd mingisugune üldistatud lineaarne mudel. 10-kraadise õhutemperatuuri languse korral selline mudel ei anna meile hinnanguks mitte –950 aktiivset rannasviibijat, vaid esialgsest 50 inimesest poole vähem ehk 25 rannasviibijat. Samas esialgse temperatuuriga võrreldes 10-kraadise tõusu korral oleks rannas jällegi 1000 inimest rohkem. On näha, et $X$ konstantse muutuse korral $Y$ muutub mittelineaarselt. Selles konkreetses näites $Y$ allub Poissoni jaotusele.

Üldistatud lineaarne mudel võimaldab sellist mittelineaarset seost esitada lineaarsel kujul, teisisõnu $Y|X$ oleks justkui lineaarne. Sellist teisendamist üldistatud lineaarses mudelis võimaldab mudelis kasutatav seosefunktisoon (sellest täpsemalt allpool).

Ülevaade[muuda | muuda lähteteksti]

Üldistatud lineaarne mudel eeldab, et uuritav tunnus $Y$ allub mingisugusele jaotusele, mis kuulub eksponentjaotuste perre (nt normaaljaotus, eksponentjaotus, Bernoulli jaotus, Poissoni jaotus).^[3] Sellise jaotuse keskväärtus $\mu$ sõltub sõltumatu tunnuse $X$ väärtustest.

$\mathbb {E} (Y|X)=\mu =g^{-1}(X\beta )$ , kus:

$\mathbb {E} (Y|X)$ on $Y$ keskväärtus $X$ korral;
$g$ on seosefunktsioon;
$X\beta$ on lineaarkombinatsioon tundmatutest parameetritest $\beta$ .

GLM-i eesmärk on hinnata suurust $\mu$ ehk keskväärtust. Parameetri $\beta$ hindamiseks kasutatakse üldiselt suurima tõepära meetodit, kvaasitõepära või Bayesi meetodeid.

Mudeli komponendid[muuda | muuda lähteteksti]

Üldistatud lineaarne mudel koosneb kolmest komponendist.^[4]^[5]

Juhuslik komponent (random component). Määrab uuritava tunnuse ( $Y$ ) jaotuse, kui $Y$ sõltub $X$ -st (tähistatakse kui $Y|X$ ). See jaotus kuulub eksponentsjaotuste perre. $Y|X$ jaotuse keskväärtus on $\mu _{i}$ , mille hindamine ongi mudeli eesmärk.
Süsteemne komponent (systematic component). Määrab mudeli sõltumatute tunnuste $X$ hulga, kasutades selleks lineaarkombinatsiooni $\eta _{i}=x_{i}^{T}\beta =x_{1}\beta _{1}+...+x_{p}\beta _{p}$ .
Seosefunktsioon (link function). Seosefunktsioon $g$ on funktsioon, mis seob juhusliku ja süsteemse komponendi, täpsemini $Y|X$ keskväärtuse $\mu _{i}$ ja $\eta _{i}$ , moodustades seeläbi lineaarfunktsiooni: $g(\mu _{i})=\eta _{i}$ .

Seosefunktsioon[muuda | muuda lähteteksti]

Sõltuvalt uuritavate andmete olemusest, on valida mitme seosefunktsiooni vahel.

Tuntud teoreetilised jaotused ja neile vastavad kanoonilised seosefunktsioonid
Jaotus	Kasutusala	Seosefunktsiooni nimi	Seosefunktsioon
Normaaljaotus	Lineaarkasvule alluvad andmed.	Samasusteisendus	$X\beta =\mu$
Poisson	Kindlas aja- või ruumiühikus toimunud sündmuste arv.	log	$X\beta =ln(\mu )$
Bernoulli	Üksiku jah/ei sündmuse tulem.	logit	$X\beta =\ln \left({\frac {\mu }{1-\mu }}\right)$
Binoom	"Jah" sündmuste arv kõikides toimunud jah/ei sündmustes.	logit	$X\beta =\ln \left({\frac {\mu }{n-\mu }}\right)$

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

↑ "Link function". Statistics How To. Vaadatud 13. detsember 2022.
↑ ^2,0 ^2,1 Dobson, Annette J., Barnett, Adrian G. (2008). An Introduction to Generalized Linear Models, Third Edition. Chapman and Hall/CRC.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ "Exponential family". Sõnaveeb. Vaadatud 13. detsember 2022.
↑ Käärik, Meelis (2020). "Üldistatud lineaarsed mudelid". Tartu Ülikooli matemaatika ja statistika instituut. Vaadatud 13. detsember 2022.
↑ "Generalized Linear Models: Advanced Methods for Data Analysis" (PDF). Carnegie Mellon University. 2014. Vaadatud 13. detsember 2022.

[1] "Link function". Statistics How To. Vaadatud 13. detsember 2022.

[:0-2] 2,0 ^2,1 Dobson, Annette J., Barnett, Adrian G. (2008). An Introduction to Generalized Linear Models, Third Edition. Chapman and Hall/CRC.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[3] "Exponential family". Sõnaveeb. Vaadatud 13. detsember 2022.

[4] Käärik, Meelis (2020). "Üldistatud lineaarsed mudelid". Tartu Ülikooli matemaatika ja statistika instituut. Vaadatud 13. detsember 2022.

[5] "Generalized Linear Models: Advanced Methods for Data Analysis" (PDF). Carnegie Mellon University. 2014. Vaadatud 13. detsember 2022.

[1]

[2]

[3]

[4]

[5]