Suurima tõepära meetod

Suurima tõepära meetod on statistikas laialt kasutatav meetod hinnangute leidmiseks. Suurima tõepära meetod on üldjuhul efektiivsem kui muud levinud meetodid.^[1]

Põhikomponendid[muuda | muuda lähteteksti]

Olgu antud valim $x_{1},x_{2},...,x_{n}$ jaotusest $F(x;\theta )$ , mis võib olla kas pidev või diskreetne. Tõepärafunktsiooniks nimetame avaldist

L(\theta )=\left\{{\begin{array}{c}f(x_{1};\theta )\cdot f(x_{2};\theta )\cdot ...\cdot f(x_{n};\theta ),{\text{pideval juhul,}}\\p(x_{1};\theta )\cdot p(x_{2};\theta )\cdot ...\cdot p(x_{n};\theta ),{\text{diskreetsel juhul,}}\end{array}}\right.

kus $f(x;\theta )$ tähistab jaotuse $F$ tihedusfunktsiooni (pideval juhul) ja $p(x;\theta )$ tähistab $F$ tõenäosusfunktsiooni (diskreetsel juhul), $\theta \in A$ .^[1]

Olgu $X=(X_{1},X_{2},...,X_{n}),X_{i}$ sõltumatud suurused ja $X_{i}\sim F(x;\theta )$ , siis $L(\theta )$ on valimi $x=(x_{1},x_{2},...,x_{n})$ saamise tõenäosus (diskreetsel juhul) või juhusliku vektori $X$ tihedusfunktsiooni väärtus punktis $x$ (pideval juhul) antud $\theta$ korral. Realiseerunud valimi $x$ korral on suurused $x_{1},x_{2},...,x_{n}$ teadaolevad arvud ja $L(\theta )$ on üksnes parameetri $\theta$ funktsioon. Eesmärgiks on leida niisugune $\theta$ väärtus parameeterruumist $A$ , et $L(\theta )$ oleks maksimaalne. Ütleme, et vastav $\theta$ väärtus on kõige tõepärasem vaadeldava valimi jaoks (st ka vastav üldkogumi jaotus on kõige tõepärasem vaadeldava valimi jaoks).

Suurima tõepära printsiip – kõige tõepärasema üldkogumijaotuse määramine antud valimi jaoks.

Väärtust ${\hat {\theta }}$ , mida maksimeeritakse parameeterruumis $A$ ( $L(\theta )$ saavutab maksimaalse väärtuse), nimetatakse parameetri $\theta$ suurima tõepära hinnanguks:

L({\hat {\theta }})={\underset {\theta \in A}{\operatorname {max} }}\ L(\theta ).

Kui tahta leida suurima tõepära hinnangut praktiliselt, on tihti lihtsam kasutada tõepärafunktsiooni logaritmi. Logaritmi monotoonsuse tõttu saavutavad $L(\theta )$ ja $\ln L(\theta )$ maksimumi samas punktis, st määravad sama suurima tõepära hinnangu.

Logaritmiline tõepärafunktsioon on

l(\theta \,;x)=\ln L(\theta \,;x)\left\{{\begin{array}{c}\sum _{i=1}^{n}\ln f(x_{i};\theta ),{\text{pideval juhul,}}\\\sum _{i=1}^{n}\ln p(x_{i};\theta ),{\text{diskreetsel juhul,}}\end{array}}\right.

^[1]

Näited[muuda | muuda lähteteksti]

Näide 1: Mündivise. Üldkogumijaotuseks on mündi visketulemuse (vapp, kiri) jaotus, kus vapi tulemise tõenäosuseks on $p$ ja kirja tulemise tõenäosuseks $1-p$ . Olgu eelnevalt teada, et $p\in {\Big \{}{\frac {1}{2}};{\frac {1}{4}}{\Big \}}$ Olgu meil kaks vaatlust: $x_{1}$ = vapp ja $x_{2}$ = vapp. Kumb on tõepärasem hinnang parameetrile p, kas ${\frac {1}{2}}$ või ${\frac {1}{4}}$ Kirjutame välja tõepärafunktsiooni:

L(p)=P(X=x_{1})\cdot P(X=x_{2})=p^{2},

millest saame, et $L({\frac {1}{2}})={\frac {1}{4}},L({\frac {1}{4}})={\frac {1}{16}}$ .

Kuna $L({\frac {1}{2}})>L({\frac {1}{4}})$ , siis ${\hat {p}}={\frac {1}{2}}$ on suurima tõepära hinnang $p$ -le.^[1]

Näide 2: Olgu üldkogumijaotus eksponentjaotusest $Exp(\lambda )$ parameetriga $\lambda ={\frac {1}{\theta }}$ . Jaotusele vastav tihedusfunktsioon on

f(x;\theta )={\frac {1}{\theta }}e^{-{\frac {x}{\theta }}},x\geq 0.

Olgu parameeter $\theta$ tundmatu. Pole raske näidata, et $\theta$ on antud jaotuse keskväärtus. Olgu meil $n=4$ vaatlust jaotusest:

0.322,0.879,0.222,0.012.

Leiame tõepärafunktsiooni

L(\theta )=\prod _{i=1}^{n}f(x_{i};\theta )={\frac {1}{\theta ^{n}}}e^{-{\frac {\sum _{i=1}^{n}}{\theta }}}={\frac {1}{\theta ^{4}}}e^{\frac {-1.435}{\theta }}

ja logaritmilise tõepärafunktsiooni:

l(\theta )=\ln L(\theta )=-4\ln \theta -{\frac {1.435}{\theta }}

Paneme tähele, et tõepärafunktsioonid on $\theta$ funktsioonid. Mõlemad funktsioonid saavutavad maksimumi samal kohal, kuna logaritmfunktsioon on monotoonselt kasvav. Maksimumi leidmiseks leiame tuletise,

{\frac {d}{d\theta }}l(\theta )=-{\frac {4}{\theta }}+{\frac {1.435}{\theta ^{2}}}.

Tuletise võrdsustamisel nulliga saame logaritmilise tõepärafunktsiooni maksimumpunkti, mis on ühtlasi parameetri $\theta$ suurima tõepära hinnanguks, ${\hat {\theta }}=0.358$ .^[1]

Hinnang logistilise regressiooni korral[muuda | muuda lähteteksti]

Logistilise regressiooni korral avaldub suurima tõepära hinnang järgmiselt:

LF=\prod _{i=1}^{n}\{P_{i}^{Y_{i}}*(1-P_{i})^{1-Y_{i}}\},

kus $LF$ on tõepära hinnang, $Y_{i}$ on vaadeldav väärtus $i$ -l juhul ja $P_{i}$ on ennustatud tõenäosus $i$ -l juhul. $P_{i}$ väärtused tulevad logistilise regressiooni mudelist ja valemist $P_{i}=1/(1+e^{-L_{i}})$ , kus $L_{i}$ on log-šansid, mis on määratud vabaliikme ja parameetri väärtuste $\beta$ poolt. Eesmärk on leida $\beta$ väärtused, mille tulemusel saadakse $L_{i}$ ja $P_{i}$ väärtused, mis maksimeerivad $LF$ -i.^[2]

Viited[muuda | muuda lähteteksti]

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 Lepik, Natalja. (2017). Tõenäosusteooria ja statistika II. Loengukonspekt. Kasutatud 19.03.2018.
↑ Pampel F. C. (2000). Logistic Regression. Aprimer. CA Sage: Thousand Oaks.

[:0-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 Lepik, Natalja. (2017). Tõenäosusteooria ja statistika II. Loengukonspekt. Kasutatud 19.03.2018.

[2] Pampel F. C. (2000). Logistic Regression. Aprimer. CA Sage: Thousand Oaks.

[1]

[2]