Kasutaja:Kittask/liivakast: erinevus redaktsioonide vahel

Eemaldatud sisu Lisatud sisu

Reasisene

Viimane redaktsioon: 6. detsember 2018, kell 18:39

Otsustusmetsa (ingl random forest) algoritm kuulub ansambelõppe meetodite hulka. Ansambelmeetodi mõte on kasutada koos paljusid "nõrku õppijaid" (siinkohal otsustuspuu), et moodustada nendest üks "tugev õppija". Nagu ka teised masinõppe meetodid, kasutab otsustusmets õppimiseks ja väärtuste ennustamiseks treeningandmeid.^[1]

Klassifikatsiooni algoritmide täpsus suurenes, kui esmakordselt loodi erinevatest puudest koosnev ansambel, sellise algoritmi väljundiks on puude poolt kõige enam ennustatud klass. Selliste ansablite kasvatamiseks kasutatakse tavaliselt juhuslikke vektoreid, mis juhivad iga puu kasvu ansamblis.^[2]

Varajane näide sellisest algoritmist on bagging algoritm, mille koostas Breiman aastal 1996. Bagging meetodi puhul kasutatakse puu kasvatamiseks juhuslikku hulka treeningandmete hulgast.^[2]

Ajalugu[muuda | muuda lähteteksti]

Aastal 1995 pakkus Tin Kam Ho välja meetodi, mis eemaldaks otsustuspuude klassifitseerija keerukuse limitatsiooni.^[3] Sellised klassifitseerijad ei saa meelevaldselt keerukuses kasvada nii et klassifitseerija ei kaotaks oma üldistamisoksust veel nägemata andmetel. Ho pakutud meetod kasutab kaldus otsustuspuid (ingl oblique decision tree), mis on head treenimisandmete täpsuse optimeerimiseks. Põhiline idee on koostada palju otsustuspuid juhuslikult valitud tunnuste alamruumides.^[1]

Algoritm[muuda | muuda lähteteksti]

Otsustusmetsa algoritmil on kaks staadiumi. Üks on otsustusmetsa loomine ja teine on loodud otsustusmetsa põhjal ennustuste tegemine.

Otsustusmetsa loomise pseudokood:

Vali juhuslikult $k$ tunnust kõikide m tunnuste hulgast, kus $k<=m$ .
k tunnuste seas arvuta puu tipp $d$ kasutades parimat lahknemispunkti.
Jaota tipp tütartippudeks kasutades parimat lahknemispunkti.
Korda 1–3 sammu kuni teatud arv $l$ arv tippe otsustuspuus on loodud.
Koosta mets korrates 1–4 sammu $n$ korda, et koostada mets, mis koosneb n otsustuspuust.^[4]

Omadused[muuda | muuda lähteteksti]

Muutujate tähtsus[muuda | muuda lähteteksti]

Otsustusmetsa saab kasutada selleks, et hinnata erinevate muutujate tähtsust klassifikatsiooni või regressiooniprobleemis. Tähtsamad muutujad omavad suuremat mõju väljastatavatele väärtustele. Vastupidiselt avaldavad vähem tähtsad tunnused vähem mõju mudeli ennustustele ja seega võib need tunnused otsustusmetsa mudelist välja jätta, tehes nii mudeli lihtsamaks ja kiiremaks.

On olemas kaks erinevat mõõdet, millega muutujate tähtsust hinnata. Esimene mõõde põhineb sellel, kui palju langeb täpsus, kui tunnus mudelist välja jäetakse. Teine mõõde põhineb sellel, kui palju langeb andmete ebapuhtus Gini indeksiga, kui muutujat kasutatakse puutipu lahknemiseks.^[5]

Otsustusmetsa eelised ja puudused[muuda | muuda lähteteksti]

Otsustusmetsal on mitmeid eeliseid:

kasutatav nii regressiooni kui ka klassifikatsiooniprobleemide korral;
tunnuste tähtsuse hindamine;
ülesobitamise oht on minimaalne;
anomaaliad andmetes ei mõjuta algoritmi väljundit;
algoritm oskab hästi puuduvaid andmeid ennustada.

Otsustusmetsal on ka puuduseid:

algoritm võib muutuda aeglaseks, kui puude arv metsas on väga suur ja seega pole päriselus probleemide lahendamiseks kõige efektiivsem;
ei ennusta andmete vahelisi sidemeid;
otsustusmets pole väga hea regressiooniülesande puhul.^[6]

Viited[muuda | muuda lähteteksti]

↑ ^1,0 ^1,1 Tin Kam Ho (1998). "The Random Subspace Method for Constructing Decision Forests" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844. Introduction. Vaadatud 06.12.2018.
↑ ^2,0 ^2,1 Leo Breiman (2001). "Random Forests" (PDF). Machine Learning. Introduction. Vaadatud 06.12.2018.
↑ Tin Kam Ho (1995). "Random Decision Forests" (PDF). Introduction. Vaadatud 06.12.2018.
↑ Shixin Gu (24.10.2017). "How Random Forest Algorithm Works in Machine Learning". Vaadatud 13.11.2018.
↑ Jake Hoare. "How is Variable Importance Calculated for a Random Forest?". Vaadatud 06.12.2018.
↑ Tristan Luminous (2017). Machine Learning For Beginners Guide Algorithms: Supervised & Unsupervised Learning Decision Tree & Random Forest Introduction. Lk 51–52. {{raamatuviide}}: nähtamatu tähemärk (reavahetus) parameetris |pealkiri= positsioonil 50 (juhend)

[:0-1] 1,0 ^1,1 Tin Kam Ho (1998). "The Random Subspace Method for Constructing Decision Forests" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844. Introduction. Vaadatud 06.12.2018.

[:1-2] 2,0 ^2,1 Leo Breiman (2001). "Random Forests" (PDF). Machine Learning. Introduction. Vaadatud 06.12.2018.

[3] Tin Kam Ho (1995). "Random Decision Forests" (PDF). Introduction. Vaadatud 06.12.2018.

[4] Shixin Gu (24.10.2017). "How Random Forest Algorithm Works in Machine Learning". Vaadatud 13.11.2018.

[5] Jake Hoare. "How is Variable Importance Calculated for a Random Forest?". Vaadatud 06.12.2018.

[6] Tristan Luminous (2017). Machine Learning For Beginners Guide Algorithms: Supervised & Unsupervised Learning Decision Tree & Random Forest Introduction. Lk 51–52. {{raamatuviide}}: nähtamatu tähemärk (reavahetus) parameetris |pealkiri= positsioonil 50 (juhend)

[1]

[2]

[3]

[4]

[5]

[6]

@@ 1. rida: / 1. rida: @@
-'''Otsustusmetsa''' ([[Inglise keel|ingl]] random forest) algoritm kuulub ansambelõppe meetodite hulka. Ansambelmeetodi mõte on kasutada koos paljusid "nõrku õppijaid" (siinkohal [[otsustuspuu]]), et moodustada nendest üks "tugev õppija". Nagu ka teised [[Masinõppimine|masinõppe]] meetodid, kasutab otsustusmets õppimiseks ja väärtuste ennustamiseks treeningandmeid. <ref name=":0" />
+'''Otsustusmetsa''' ([[Inglise keel|ingl]] ''random forest'') algoritm kuulub ansambelõppe meetodite hulka. Ansambelmeetodi mõte on kasutada koos paljusid "nõrku õppijaid" (siinkohal [[otsustuspuu]]), et moodustada nendest üks "tugev õppija". Nagu ka teised [[Masinõppimine|masinõppe]] meetodid, kasutab otsustusmets õppimiseks ja väärtuste ennustamiseks treeningandmeid.<ref name=":0" />
-Klassifikatsiooni algoritmide täpsus suurenes, kui esmakordselt loodi erinevatest puudest koosnev ansambel, sellise algoritmi väljundiks on puude poolt kõige enam ennustatud klass. Selliste ansablite kasvatamiseks kasutatakse tavaliselt juhuslikke vektoreid, mis juhivad iga puu kasvu ansamblis. <ref name=":1">{{Netiviide|Autor=Leo Breiman|URL=https://link.springer.com/content/pdf/10.1023%2FA%3A1010933404324.pdf|Pealkiri=Random Forests|Väljaanne=Machine Learning|Aeg=2001|Kasutatud=2018|Täpsustus=Introduction}}</ref>
+Klassifikatsiooni algoritmide täpsus suurenes, kui esmakordselt loodi erinevatest puudest koosnev ansambel, sellise algoritmi väljundiks on puude poolt kõige enam ennustatud klass. Selliste ansablite kasvatamiseks kasutatakse tavaliselt juhuslikke vektoreid, mis juhivad iga puu kasvu ansamblis.<ref name=":1">{{Netiviide|Autor=Leo Breiman|URL=https://link.springer.com/content/pdf/10.1023%2FA%3A1010933404324.pdf|Pealkiri=Random Forests|Väljaanne=Machine Learning|Aeg=2001|Kasutatud=06.12.2018|Täpsustus=Introduction}}</ref>
-Varajane näide sellisest algoritmist on bagging algoritm, mille koostas Breiman aastal 1996. Bagging meetodi puhul kasutatakse puu kasvatamiseks juhuslikku hulka treeningandmete hulgast. <ref name=":1" />
+Varajane näide sellisest algoritmist on bagging algoritm, mille koostas Breiman aastal 1996. Bagging meetodi puhul kasutatakse puu kasvatamiseks juhuslikku hulka treeningandmete hulgast.<ref name=":1" />
 == Ajalugu ==
-Aastal 1995 pakkus Tin Kam Ho välja meetodi, mis eemaldaks otsustuspuude klassifitseerija keerukuse limitatsiooni.<ref>{{Netiviide|Autor=Tin Kam Ho|URL=https://web.archive.org/web/20160417030218/http://ect.bell-labs.com/who/tkh/publications/papers/odt.pdf|Pealkiri=Random Decision Forests|Väljaanne=|Aeg=1995|Kasutatud=2018|Täpsustus=Introduction}}</ref> Sellised klassifitseerijad ei saa meelevaldselt keerukuses kasvada nii et klassifitseerija ei kaotaks oma üldistamisoksust veel nägemata andmetel. Ho pakutud meetod kasutab kaldus otsustuspuid (ingl oblique decision tree), mis on head treenimisandmete täpsuse optimeerimiseks. Põhiline idee on koostada palju otsustuspuid juhuslikult valitud tunnuste alamruumides. <ref name=":0">{{Netiviide|Autor=Tin Kam Ho|URL=http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf|Pealkiri=The Random Subspace Method for Constructing Decision Forests|Väljaanne=IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844|Aeg=1998|Kasutatud=2018|Täpsustus=Introduction}}</ref>
+Aastal 1995 pakkus Tin Kam Ho välja meetodi, mis eemaldaks otsustuspuude klassifitseerija keerukuse limitatsiooni.<ref>{{Netiviide|Autor=Tin Kam Ho|URL=https://web.archive.org/web/20160417030218/http://ect.bell-labs.com/who/tkh/publications/papers/odt.pdf|Pealkiri=Random Decision Forests|Väljaanne=|Aeg=1995|Kasutatud=06.12.2018|Täpsustus=Introduction}}</ref> Sellised klassifitseerijad ei saa meelevaldselt keerukuses kasvada nii et klassifitseerija ei kaotaks oma üldistamisoksust veel nägemata andmetel. Ho pakutud meetod kasutab kaldus otsustuspuid (ingl ''oblique decision tree''), mis on head treenimisandmete täpsuse optimeerimiseks. Põhiline idee on koostada palju otsustuspuid juhuslikult valitud tunnuste alamruumides.<ref name=":0">{{Netiviide|Autor=Tin Kam Ho|URL=http://ect.bell-labs.com/who/tkh/publications/papers/df.pdf|Pealkiri=The Random Subspace Method for Constructing Decision Forests|Väljaanne=IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844|Aeg=1998|Kasutatud=06.12.2018|Täpsustus=Introduction}}</ref>
 == Algoritm ==
 Otsustusmetsa algoritmil on kaks staadiumi. Üks on otsustusmetsa loomine ja teine on loodud otsustusmetsa põhjal ennustuste tegemine.
@@ 19. rida: / 17. rida: @@
 # Jaota tipp tütartippudeks kasutades parimat lahknemispunkti.
 # Korda 1–3 sammu kuni teatud arv <math>l</math> arv tippe otsustuspuus on loodud.
-# Koosta mets korrates 1–4 sammu <math>n</math> korda, et koostada mets, mis koosneb n otsustuspuust.<ref>{{Netiviide|Autor=Shixin Gu|URL=https://syncedreview.com/2017/10/24/how-random-forest-algorithm-works-in-machine-learning/|Pealkiri=How Random Forest Algorithm Works in Machine Learning|Väljaanne=|Aeg=2017-10-24|Kasutatud=2018-11-13}}</ref>
+# Koosta mets korrates 1–4 sammu <math>n</math> korda, et koostada mets, mis koosneb n otsustuspuust.<ref>{{Netiviide|Autor=Shixin Gu|URL=https://syncedreview.com/2017/10/24/how-random-forest-algorithm-works-in-machine-learning/|Pealkiri=How Random Forest Algorithm Works in Machine Learning|Väljaanne=|Aeg=24.10.2017|Kasutatud=13.11.2018}}</ref>
 == Omadused ==
@@ 26. rida: / 24. rida: @@
 Otsustusmetsa saab kasutada selleks, et hinnata erinevate muutujate tähtsust klassifikatsiooni või regressiooniprobleemis. Tähtsamad muutujad omavad suuremat mõju väljastatavatele väärtustele. Vastupidiselt  avaldavad vähem tähtsad tunnused vähem mõju mudeli ennustustele ja seega võib need tunnused otsustusmetsa mudelist välja jätta, tehes nii mudeli lihtsamaks ja kiiremaks.
-On olemas kaks erinevat mõõdet, millega muutujate tähtsust hinnata. Esimene mõõde põhineb sellel, kui palju langeb täpsus, kui tunnus mudelist välja jäetakse. Teine mõõde põhineb sellel, kui palju langeb andmete ebapuhtus Gini indeksiga, kui muutujat kasutatakse puutipu lahknemiseks.<ref>{{Netiviide|Autor=Jake Hoare|URL=https://www.displayr.com/how-is-variable-importance-calculated-for-a-random-forest/|Pealkiri=How is Variable Importance Calculated for a Random Forest?|Väljaanne=|Aeg=|Kasutatud=2018}}</ref>
+On olemas kaks erinevat mõõdet, millega muutujate tähtsust hinnata. Esimene mõõde põhineb sellel, kui palju langeb täpsus, kui tunnus mudelist välja jäetakse. Teine mõõde põhineb sellel, kui palju langeb andmete ebapuhtus Gini indeksiga, kui muutujat kasutatakse puutipu lahknemiseks.<ref>{{Netiviide|Autor=Jake Hoare|URL=https://www.displayr.com/how-is-variable-importance-calculated-for-a-random-forest/|Pealkiri=How is Variable Importance Calculated for a Random Forest?|Väljaanne=|Aeg=|Kasutatud=06.12.2018}}</ref>
 == Otsustusmetsa eelised ja puudused  ==
@@ 41. rida: / 39. rida: @@
 * algoritm võib muutuda aeglaseks, kui puude arv metsas on väga suur ja seega pole päriselus probleemide lahendamiseks kõige efektiivsem;
 * ei ennusta andmete vahelisi sidemeid;
-* otsustusmets pole väga hea regressiooniülesande puhul. <ref>{{Raamatuviide|autor=Tristan Luminous|pealkiri=Machine Learning For Beginners Guide Algorithms:
+* otsustusmets pole väga hea regressiooniülesande puhul.<ref>{{Raamatuviide|autor=Tristan Luminous|pealkiri=Machine Learning For Beginners Guide Algorithms:
 Supervised & Unsupervised Learning Decision Tree & Random
-Forest Introduction|aasta=2017|koht=|kirjastus=|lehekülg=51-52}}</ref>
+Forest Introduction|aasta=2017|koht=|kirjastus=|lehekülg=51–52}}</ref>
 == Viited ==