Kasutaja:Gorjel wiki/ristvalideerimine

Ristvalideerimine (ingl cross-validation) on mudeli statistiline verifitseerimismeetod, mis võimaldab hinnata seda, kuidas statistiline mudel sobib kokku sõltumatu valimiga. Enamasti kasutatakse seda ennustavate mudelite puhul, kui tahetakse vaadata, kui hästi mudel saab hakkama ennustamise probleemiga, kasutades eelnevalt teadmata andmed. Ennustavas ülesandes jagatakse andmestik tavaliselt kolmeks osaks: andmed, millega mudelit õpetatakse (treeningandmed), andmed, mille abil valitakse mudeli kuju ja selle parameetrid (valideerimisandmed), ning tundmatud andmed, mida on kasutatud mudeli testimiseks (testandmed).^[1]

Ristvalideerimise puhul jagatakse esimesel sammul andmestik kaheks mittelõikuvaks osaks. Järgmise sammuna teostatakse analüüs andmete esimese osaga ning hinnatakse analüüsi täpsust kasutades andmete teist osa. Selleks, et vähendada variaablust, korratakse neid kaht sammu mitu korda, kasutades andmete erinevat jaotust mudeli treenimiseks ja valideerimiseks. Viimasel sammul valideerimise tulemused keskmistatakse üle kõikide kordamiste, mis võimaldab hinnata ennustava mudeli lõplikku täpsust.

Ristvalideerimist kasutatakse siis, kui tekib andmepuuduse probleem ehk kui andmeid ei ole piisavalt palju, et neid jagada treening- ja testandmeteks ilma mudeli olulisust vähendamata.^[2]

Ristvalideerimise tüübid

Jäta-p-vahele ristvalideerimine

Jäta-p-vahele ristvalideerimisel valitakse $p$ vaatlust valideerimisandmeteks ning ülejäänud vaatluseid kasutatakse treeningandmetena. Seda protsessi korratakse kuni käiakse läbi kõik võimalikud valideerimisandmete kombinatsioonid. Jäta-p-vahele ristvalideerimisel mudel verifitseeritakse ${\textstyle C_{n}^{p}}$ korda, kus $n$ on esialgne andmevalimi maht ning $p$ on vaatluste arv, mida kasutatakse mudeli valideerimisel.^[3]

Suure $p$ puhul vajab jäta-p-vahele ristvalideerimise meetod suuri arvutuslikke ressursse, nt kui ${\textstyle n=100}$ ja ${\textstyle p=30}$ , siis ${\textstyle C\approx 3\times 10^{2}5}$ .

Jäta-üks-vahele ristvalideerimine

Jäta-üks-vahele ristvalideerimine on jäta-p-vahele ristvalideerimise erijuht, kus ${\textstyle p=1}$ . Jäta-üks-vahele ristvalideerimisel ei ole sellist probleemi arvutuslikkude ressurssidega nagu jäta-p-vahele ristvalideerimisel, kuna treenimise ja valideerimise protsessi korratakse ${\textstyle C_{n}^{1}=n}$ korda.^[3] Jäta-üks-vahele ristvalideerimine annab peaaegu nihketa hinnangu testveale, sest iga iteratsiooni korral kasutatakse $n-1$ vaatlust treeningandmete rollis.^[1]

K-korda ristvalideerimine

K-korda ristvalideerimisel jagatakse esialgsed andmed juhuslikult k-liikmelisteks võrdseteks osavalimiteks. Üks osavalimitest valitakse valideerimisandmeteks ning ülejäänuid $k-1$ osavalimit kasutatakse mudeli treenimiseks. Mudel verifitseeritakse siis $k$ korda, kusjuures iga osavalimit kasutatakse valideerimisandmetena parajasti üks kord. Viimasel sammul arvutatakse keskmine mudeli täpsuse näitaja üle $k$ kordamise.^[1]

K-korda ristvalideerimisel on mitu olulist eelist jäta-üks-vahele ristvalideerimise ees. Esiteks, iga vaatlus esineb valideerimisandmetes ainult üks kord. Teiseks on teoreetiliselt k-korda ristvalideerimise puhul väiksem hälbimus. See järeldus põhineb sellel asjaolul, et jäta-üks-vahele ristvalideerimise korral treenitakse iga kord mudelit sarnaste andmetega, seega iga iteratsiooni tulemus on tugevalt korreleeritud eelmiste iteratsioonide tulemustega. Lõpuks kasutatakse k-korda ristvalideerimise rakendamisel vähem arvutuslike ressursse, kuna mudel rakendatakse ainult $k$ korda, mille väärtus tavaliselt varieerub 5st kuni 10ni.^[1]

Viited

↑ ^1,0 ^1,1 ^1,2 ^1,3 G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical Learning. New York: Springer Texts in Statistics. Lk 175–184.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ R.Grossman, G. Seni, J. Elder, N. Agarwal, H. Liu (2010). Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictions. Morgan & Claypool.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ ^3,0 ^3,1 S. Arlot, A.Celisse (2010). A survey of cross-validation procedures for model selection. Statistics surveys 4. Lk 40-79.

[:0-1] 1,0 ^1,1 ^1,2 ^1,3 G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical Learning. New York: Springer Texts in Statistics. Lk 175–184.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[2] R.Grossman, G. Seni, J. Elder, N. Agarwal, H. Liu (2010). Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictions. Morgan & Claypool.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[:1-3] 3,0 ^3,1 S. Arlot, A.Celisse (2010). A survey of cross-validation procedures for model selection. Statistics surveys 4. Lk 40-79.

[1]

[2]

[3]