Lineaarregressioon

Allikas: Vikipeedia
Jump to navigation Jump to search
Juhuslikud andmepunktid ja lineaarregressioon nende põhjal

Lineaarregressioon on statistiline meetod, mille abil saab lähendada muutujate vahelisi seoseid. Lineaarregressiooni kasutatakse näiteks masinõppes. Selle tarbeks leitakse sobiv lineaarfunktsioon, mis vaadeldud andmete vahelist seost piisaval määral kirjeldab[1]. Ennustada võib nii ühe kui ka mitme tunnuse põhjal. Ühe tunnuse ehk vaba muutuja põhjal ennustamise korral on tegemist lihtsa lineaarregressiooniga ning mitme puhul mitmekordse lineaarregressiooniga.[2]

Otsitav tulemus[muuda | muuda lähteteksti]

Ühe tunnuse põhjal kõige paremini sobiva sirge võrrandit kujutatakse järgmiselt:

,

kus on ennustatud väärtus, on väärtus, mille põhjal ennustatakse, on tõus ning on nullkoht.[3] Suuremates dimensioonides mitmete vabade muutujate kasutamise puhul nimetatakse selle võrrandi tulemust tasandiks või hüpertasandiks. Kui kasutusel on vabat muutujat , on tarvis leida väärtused , mida nimetatakse ka kaaludeks või koefitsientideks. Et neid väärtusi saab kujutada vektoritena, on ülaltoodud lihtne võrrand tihtipeale asendatud vektor- ja maatrikstehetega, mis võtavad arvesse mitmete vabade muutujatega regressiooni arvutamist.[4]

Andmetele sobitamine[muuda | muuda lähteteksti]

Sinisega on märgitud regressioonisirge, punased on andmepunktid ning rohelised jooned tähistavad väärtusi, mille ruutusid minimeeritakse vähimruutude meetodiga

Enamasti kasutatakse lineaarregressiooni sirge sobitamiseks vähimruutude meetodit, mida nimetatakse ka tavaliseks vähimruutude meetodiks.[4] Selle meetodi abil arvutatakse välja kõige paremini sobiv sirge, minimeerides iga andmepunkti ja vastava sirge väärtuste vahede ruutude summat piki vertikaaltelge. Vahede suurused võetakse ruutu, et kõik tulemused oleksid positiivsete väärtustega ega nulliks teineteist.[1] Teisisõnu otsitakse väärtusi ja nii, et minimeerida väärtust , mis väljendub valemina[3]

kus tähistab märgendi tegelikku väärtust ning vaadeldava andmehulga suurust.

Võõrväärtused[muuda | muuda lähteteksti]

Andmestikule leitud regressioonisirgest kaugel asuvaid üksikuid väärtusi nimetatakse võõrväärtusteks. Võõrväärtuste näol on tegemist vaadeldud andmetega, mis kirjeldavad harvasid juhtumeid või ekslikke väärtusi, ent mis mõjutavad regressioonisirge asendit väga olulisel määral. Mida kaugemal on võõrväärtus teistest mööda horisontaaltelge, seda suuremat mõju avaldab see regressioonisirge tõusule. Selliste võõrväärtuste eemaldamist nimetatakse ka müra vähendamiseks andmestikus.[1]

Gradientlaskumine[muuda | muuda lähteteksti]

Enam kui ühe sisendtunnusega lineaarregressioonimudelit treenides võib optimeerimiseks kasutada gradientlaskumist. Gradientlaskumise kasutamine näeb ette koefitsientide algväärtustamist suvaliste arvudega ning seejärel itereerides nende väärtuste muutmist sedasi, et need minimeeriks vigade suurust.[4]

Regulariseerimine[muuda | muuda lähteteksti]

Lineaarregressioonimudeli liigse keerukuse vähendamiseks kasutatakse regulariseerimismeetodeid, millest levinumad on Lasso ja Ridge. Nende rakendamise tagajärjel muutub osade koefitsientide väärtus nulliks, st mõnede tunnuste osatähtsus muutub olematuks. Masinõppes peetakse liiga keerukaks mudeleid, mis sisaldavad palju reegleid ning tihtipeale on need ülesobitatud treeninguandmetele.[4]

Ekstrapoleerimine[muuda | muuda lähteteksti]

Lineaarregressioonimudeli sobitamisel andmestikule on tarvis tähelepanu pöörata andmestikus esinevate väärtuste vahemikule. Regressioonimudeli kasutamine andmetel, mis jäävad selle treeninguvahemikust välja, võib päädida uskumatute tulemustega, sest mudel peab ennustamiseks ekstrapoleerima.[1]

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 1,2 1,3 "Linear Regression". Vaadatud 16.03.2018.
  2. "Multiple Linear Regression". Vaadatud 16.03.2018.
  3. 3,0 3,1 "What is the "Best Fitting Line"?". Vaadatud 16.03.2018.
  4. 4,0 4,1 4,2 4,3 "Linear Regression for Machine Learning". Vaadatud 16.03.2018.