Vähimruutude meetodi regulariseerimine

Allikas: Vikipeedia

Vähimruutude meetodi regulariseerimine on vähimruutude meetodi lahendamine, kasutades regularisatsiooni, mis aitab kindlaid probleeme kitsendada, tehes nende lahendamise lihtsamaks ja täpsemaks[1].

Regularisatsiooni eesmärk on lihtsustada regressioonimudelit, kahandades tunnuste kaale, ning vähendada sellega ülesobitamise riski[1].

Kui vähimruutude valemi järgi on tunnuste kaalude vektor leitav valemiga , kus – kaalude vektor, – märgendite vektor, – tunnuste maatriks[1], siis regularisatsiooni puhul lisatakse kaaludele mingisugune penalti või karistus, mis aitaks erinevusi ühtlustada[2] ja kaale minimeerida. Kõige enim kasutatud regularisatsioonimeetodid on kant- ja lassoregressioon[3].

Kantregressioon[muuda | muuda lähteteksti]

Kantregressioon on tuntud ka kui Ridge'i regressioon, Tikhonovi regularisatsioon või L2-regularisatsioon.

Selle meetodi eesmärk on kõik kaalud ühtlaselt minimeerida ning nullile lähendada, kuid mitte täielikult nulliks muuta. Seega ei saa kantregressiooni tulemusena tekkiv mudel ennustamiseks kasutada ainult mingit kindlat osa tunnustest, kuna kõigil tunnustel on mingi nullist suurem kaal[4].

Kasutamine[muuda | muuda lähteteksti]

Kantregressiooni kasutamise valem on

, kus on regularisatsiooniparameeter ja on kaalude vektori norm ruudus[1].

Suletud süsteemi lahendus[muuda | muuda lähteteksti]

Meetodile leidub ka suletud süsteemi lahendus [1].

Lassoregressioon[muuda | muuda lähteteksti]

Lassoregressioon on tuntud ka kui L1-regularisatsioon.

Lassoregressiooni meetod üritab kõikide ebatähtsate tunnuste kaalud nulliks muuta. Juhul, kui tunnuste vahel on tugevad seosed (kollineaarsed tunnused) valib lassoregressioon seotud tunnuste vahelt juhuslikult ühe, mille kaalu ta tõstab, ning muudab ülejäänud nulliks[1].

Kasutamine[muuda | muuda lähteteksti]

Lassoregressiooni kasutamise valem on

, kus on regularisatsiooniparameeter ja on kaalude absoluutväärtuste summa[1].

Suletud süsteemi lahendus[muuda | muuda lähteteksti]

Lassoregressiooni meetodil puudub suletud süsteemi lahendus.

Lasso- ja kantregressiooni erinevused[muuda | muuda lähteteksti]

Kõige tähtsam erinevus lasso- ja kantregressiooni meetodi vahel on nullkaalude arv: lassoregressioon sunnib kõigi vähegi ebatähtsate tunnuste kaalud nulliks, kuid kantregressiooni tulemusel saadud kaalud on küll väiksed, kuid mitte nullid[5]. Seega on lassoregressiooni tulemus lihtsam mudel, mis ennustamiseks kasutatakse ainult mingit kogutunnuste hulga osahulka[6]. See aga ei tähenda, et lassoregressioon oleks iga probleemi jaoks parim lahendus. Lassoregressioon töötab enamjaolt paremini ülesannetes, kus ainult väike osa tunnuste reaalsetest kaaludest on suurem kui null ehk märgendit mõjutab ainult mingi väike osa kogutunnustest. Kantregressioon töötab aga paremini ülesannetes, kus on palju tunnuseid, mis kõik mõjutavad ennustust vähemal või suuremal määral[5].

Regularisatsiooni parameeter λ[muuda | muuda lähteteksti]

Kui parameetri väärtus on 0, siis kaalude regularisatsiooni ei toimu ja mudel arvutatakse välja tavalise vähimruutude meetodiga.

Mida suurem on lambda väärtus, seda rohkem karistatakse suuremaid kaale ning seda väiksemad on kõigi tunnuste kaalud[3].

Kuna erinevate ülesannete lähteandmed on erinevad, ei leidu ühtset regularisatsiooni parameetri väärtust, mis igal juhul annaks parima tulemuse. Parima võimaliku lambda väärtuse saab välja arvutada eri viisil, näiteks ristvalideerimise, erinevuse printsiibi või L-kurvi meetodiga[7].

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 Peter Flach. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Lk 204-205.
  2. Christopher M. Bishop. Neural Networks for Pattern Recognition. Lk 338.
  3. 3,0 3,1 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Lk 215.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  4. Arthur E. Hoerl, Robert W. Kennard (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Lk 57.
  5. 5,0 5,1 Joseph O Ogutu, Torben Schulz-Streeck, Hans-Peter Piepho. Genomic selection using regularized linear regression models: ridge regression, lasso, elastic net and their extensions.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  6. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Lk 223.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  7. H. Ahmadian, J. E. Mottershead, M. I. Friswell (1998). Regularisation Methods for Finite Element Model Updating. Lk 1.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)