Mine sisu juurde

Multinomiaalne logistiline regressioon

Allikas: Vikipeedia

Multinomiaalne logistiline regressioon (ingl multinomial logistic regression) on klassifitseerimismeetod enam kui kahe võimaliku diskreetse tulemuse jaoks. See on binaarse logistilise regressiooni üldistus, kus olemasolevate andmete põhjal luuakse mudel selleks, et hinnata erinevatesse võimalikesse klassidesse kuulumise tõenäosust.[1]

Multinoomjaotus

[muuda | muuda lähteteksti]

Multinoomjaotus on binoomjaotuse üldistus, kus igas üksikus katses on enam kui kaks võimalikku katsetulemust. Olgu võimalikud katsetulemused ning nende esinemise tõenäosused vastavalt , kusjuures ja . Tõenäosus, et sõltumatus katses sündmused toimuvad vastavalt korda, avaldub valemiga

Kuna , siis on ühe sündmuse toimumiste arv avaldatav teiste kaudu ning kasutusele saab võtta lühema vektori . Siis avaldub tõenäosusfunktsioon valemiga

Multinoomjaotuse liikmete keskväärtus ja dispersioon avalduvad vastavalt ja iga korral.[2][3]

Multinomiaalne logit mudel

[muuda | muuda lähteteksti]

Olgu võimalikud katsetulemused ning seletavate tunnuste arv . Binaarse logit-mudeli korral hinnatakse uuritava sündmuse toimumise ja vastandsündmuse toimumise šansi logaritmi

Multinomiaalse mudeli korral vaadeldakse logit-mudelit, kus igas mudelis hinnatakse sündmuse toimumise ehk mingile kindlale tasemele kuulumise ja baastasemele kuulumise šansi logaritmi.

Valides baastasemeks taseme , avaldub -ndale tasemele vastav logit-mudel järgmiselt

kus . Siinkohal tasub tähele panna, et parameetrid sõltuvad tasemest ning baastaseme võib valida vabalt tasemete hulgast. [2]

Olgu kõikide võimalike populatsioonide arv nii et on vaatluste arv -ndas populatsioonis ja , kus on kõigi vaatluste arv. Suurus tähistab siis iga -nda populatsiooni vaatluse tõenäosust kuuluda tasemele . Multinomiaalsest logit-funktsioonist saame siis

Avaldades eelnevast ning võttes, et iga korral , saame

kus ja

[4]

Parameetrite hindamine suurima tõepära meetodil

[muuda | muuda lähteteksti]

Olgu multinoomjaotusest, mille võimalike tasemete arv on .

Kuna jagatises ei ole hinnatavaid tõenäosusi , siis võib seda vaadelda konstandina ja suurima tõepära funktsioon on

Asendades ja , saame

Suurima tõepära hinnangute leidmiseks on vaja eelnev funktsioon maksimeerida. Kuna logaritm on monotoonne funktsioon, siis piisab selleks leida log-tõepära funktsiooni maksimumkohad. Suurima tõepära funktsioonist naturaallogaritmi võtmisel saame log-tõepära funktsiooni

Funktsiooni maksimeerimiseks suhtes, piisab meil leida funktsiooni osatuletised ning iga jaoks nullkohad.[4]

  1. Alan Agresti (2002). Categorical Data Analysis. New Jersey: Wiley. Lk 267. ISBN 0-471-36093-7.
  2. 2,0 2,1 Gerhard Tutz (2012). Regression for Categorical Data. Cambridge: Cambridge University Press. Lk 209–210. ISBN 9780511842061.
  3. Kalev Pärna (2013). Tõenäosusteooria algkursus. Tartu: Tartu Ülikooli Kirjastus. Lk 49. ISBN 978-9949-32-218-3.
  4. 4,0 4,1 Scott A. Czepiel (2002). "Maximum Likelihood Estimation of Logistic Regression Models: Theory and Implementation" (PDF). Vaadatud 11.04.2018.