Logistiline regressioon

Logistiline regressioon või üldisemalt logistiline mudel ehk logit-mudel on üks üldistatud lineaarsetest mudelitest, mis prognoosib uuritava sündmuse toimumise tõenäosust ja selle muutumist sõltuvalt pideva argumenttunnuse väärtuse muutumisest^[1]. Logit-mudeli uuritaval tunnusel võib olla ainult kaks võimalikku väärtust: jah/ei, on/ei ole, esineb/ei esine. See kodeeritakse ümber 1/0 tunnuseks, kus 1 tähistab sündmuse toimumist^[2]. Tegemist on Bernoulli $Y\sim B(1,\pi )$ või binoomjaotusega $Y\sim B(n,\pi )$ , kus n on katsete arv ning $\pi$ on otsitava sündmuse tõenäosus, mida tavaliselt tähistatakse järgmiselt: $\pi =P(Y=1)$ ning $1-\pi =P(Y=0)$ ^[2]. Seega logistilise mudeli eesmärgiks on hinnata sündmuse toimumise tõenäosust. Logistilise regressiooni lõi 1958. aastal statistik David Cox^[3]^[4].

Otsitav tulemus[muuda | muuda lähteteksti]

Logistiline regressioon saab olla nii binaarne, järjestatud või multinomiaalne. Binoomse või binaarse logistilise regressiooni puhul uuritakse olukorda, kus uuritaval tunnusel on kaks võimalikku väärtust: 0 ja 1. Multinominaalse regressiooni puhul on tegemist olukorraga, kus väljundiks on 3 või rohkem sõltumatut väärtust ning väärtustel puudub järjestus. Järjestatud logistilise regressiooni korral uuritakse tunnust, millel on mitu sõltuvat taset ning tasemed on järjestatud.

Logit-mudel on kõige enam kasutatud meetod binaarse tunnuse modelleerimiseks. Sellel on ühtlasi ka kerge ja arusaadav interpretatsioon^[5]. Sündmuse toimumisel ("ravimi tarvitamine", "võit" jne.) märgitakse tavaliselt "1" ning vastandsündmuse ("platseebo tarvitamine", "kaotus" jne) korral vastavalt "0". Mudeli parameetrite interpreteerimisel kasutatakse šansside suhte muutusi, kust sündmuse šanss on defineeritud kui sündmuse esinemise tõenäosuse ja sündmuse mitteesinemise tõenäosuse suhe.

Logistrilise regressiooni korral kasutatakse samuti pidevaid ja faktoriaalseid kirjeldavaid tunnuseid. Erinevalt klassikalistest mudelitest, kus üheks eelduseks on uuritava tunnuse normaaljaotus, logistilise mudeli korral see eeldus puudub^[2]. Samuti ei saa parameetrite hindamisel kasutada vähimruutude meetodit (VRM), nagu tehakse seda klassikaliste meetodite korral^[5]. Binaarse tunnuse korral on VRM hinnangutel teistsugused omadused, seetõttu üldistatud lineaarsete mudelite korral hinnatakse parameetreid suurima tõepära meetodil^[5]. Suurima tõepära hinnangu korral valitakse parameetrid, mille korral saavutab tõepärafunktsioon maksimumi^[5].

Mudeli kuju, logistiline funktsioon, šansid, šansside suhe ja logit[muuda | muuda lähteteksti]

Kui tegemist on binaarse tunnusega, siis ei saa kasutada tavalist lineaarset regressiooni, seetõttu tuleb väärtused lõigust [0,1] teisendada (üksüheselt, pidevalt, diferentseeruvalt) reaalarvulisele skaalale^[2]^[5].

Logit-funktsiooni definitsioon[muuda | muuda lähteteksti]

Binaarse uuritava tunnuse korral tuleb kasutada logit-seosefunktsiooni, kuna prognoositakse tunnuse tõenäosust, mis on lõigus [0,1]. Logit-seosefunktsiooni abil leitakse teisendus kogu reaalteljele^[5].

$\eta =logit(\pi )=ln{\frac {\pi }{1-\pi }}$ , kus ${\frac {\pi }{1-\pi }}$ on sündmuse esinemise šanss.

Logistilise mudeliga hinnatakse seega šansi logaritmi

$ln{\frac {\pi }{1-\pi }}=\beta _{0}+\beta _{1}x_{1}+...+\beta _{k}x_{k}$ , kus $\pi ={\textbf {P}}(Y=1)$ on sündmuse esinemise tõenäosus ja k on argumentide arv.

Logit-seosefunktsioonist avaldub ka prognoosi tõenäosus $\pi ={\frac {e^{\eta }}{1+e^{\eta }}}$ .

Šansside definitsioon[muuda | muuda lähteteksti]

Sündmuse šanss on defineeritud kui sündmuse esinemise tõenäosuse ja sündmuse mitteesinemise tõenäosuse suhe

$\Pi ={\frac {\pi }{1-\pi }}$ ^[5].

Šansside suhe on defineeritud kui kahe sündmuse šansside suhe

$OR={\frac {\Pi _{i}}{\Pi _{j}}}={\frac {\frac {\pi _{i}}{1\pi _{i}}}{\frac {\pi _{j}}{1-\pi _{j}}}}$ ^[5].

Parameetrite interpreteerimine[muuda | muuda lähteteksti]

Kui parameetri ees olev märk on pluss, siis see näitab samapidist seost argumendi ja sündmuse esinemise tõenäosuse vahel. Miinusmärk näitab vastupidist seost.

Mudeli headuse näitajad[muuda | muuda lähteteksti]

Lineaarse regressiooni mudelite korral mõõdetakse mudeli headust determinatsioonikordajaga R². Kuna sellel pole logistilise regressiooniga otsest seost, kasutatakse mudeli headuse määramiseks teisi meetodeid. Järgmisena välja toodud statistikute korral mida väiksem on statistiku väärtus, seda parem on mudel^[2].

Hälbimus[muuda | muuda lähteteksti]

Hälbimus (ingl deviance) näitab häbimust ideaalsest mudelist. See on analoogne lineaarses regressioonis oleva ruutude summa arvutusega^[5]. Hälbimus avaldub järgmiselt:

$D=2ln{\frac {l(y,y)}{l(y,\mu )}}$ ,

kus $l(y,y)$ vastab küllastunud mudeli logaritmilistele tõepärafunktsioonidele ja $l(y,\mu )$ vastab uuritava mudeli logaritmilistele tõepärafunktsioonidele.

Hälbimusega samaväärseks loetakse Pearsoni hii-ruut-statistikut.

Parameetrite olulisus[muuda | muuda lähteteksti]

Pärast mudeli kuju leidmist hinnatakse parameetrite olulisust. Logistilise regressiooni korral tähistavad logistilise regressiooni koefitsiendid muutust logit'is ühe ühiku korda^[5]. Mudelite parameetrite olulisuse hindamiseks kasutatakse kõige sagedamini tõepärasuhte statistikut ja Waldi statistikut. Mõlemad statistikud on asümptootiliselt hii-ruut-jaotusega, seega parameetrite $\beta _{i}$ olulisust hinnatakse $\chi ^{2}$ -statistikuga^[5]. $\chi ^{2}$ -statistik näitab kui palju suureneks mudeli hälbimus, kui vastav argument mudelist ära jätta.

Viited[muuda | muuda lähteteksti]

↑ Kaart, Tanel. (2012). Binaarsete tunnuste analüüsimeetodid. Kasutatud 10.03.2018
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 Käärik, Ene. (2017). Andmeanalüüs II. Loengukonspekt.
↑ Walker, S.H., Duncan, D.B. (1967). "Estimation of the probability of an event as a function of several independent variables". Biometrika. 54: 167–178.
↑ Cox, D.R. (1958). "The regression analysis of binary sequences (with discussion)". J Roy Stat Soc B. 20: 215–242.
↑ ^5,00 ^5,01 ^5,02 ^5,03 ^5,04 ^5,05 ^5,06 ^5,07 ^5,08 ^5,09 ^5,10 Hosmer, D. W., Lemeshow, S. (2000). Applied Logistic Regression (2nd Edition). New York: Wiley. http://dx.doi.org/10.1002/0471722146

[1] Kaart, Tanel. (2012). Binaarsete tunnuste analüüsimeetodid. Kasutatud 10.03.2018

[:0-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 Käärik, Ene. (2017). Andmeanalüüs II. Loengukonspekt.

[3] Walker, S.H., Duncan, D.B. (1967). "Estimation of the probability of an event as a function of several independent variables". Biometrika. 54: 167–178.

[4] Cox, D.R. (1958). "The regression analysis of binary sequences (with discussion)". J Roy Stat Soc B. 20: 215–242.

[:1-5] 5,00 ^5,01 ^5,02 ^5,03 ^5,04 ^5,05 ^5,06 ^5,07 ^5,08 ^5,09 ^5,10 Hosmer, D. W., Lemeshow, S. (2000). Applied Logistic Regression (2nd Edition). New York: Wiley. http://dx.doi.org/10.1002/0471722146

[1]

[2]

[3]

[4]

[5]