Kasutaja:Inoryy//Stiimulõpe

Allikas: Vikipeedia

Stiimulõpe on masinõpe ala, mis on inspireeritud biheviorismist. Selle uurimisobjektiks on tarkvara põhiline agent, mille eesmärk on teostada tegevusi ümbritsevas keskkonnas nii, et tegevustest tulenev skoor oleks maksimiseeritud. Probleemi üldisuse tõttu on ta uuritud paljudes teistes valdkondades, näiteks mänguteooria, automaatika, majandusteadus, informatsiooniteooria, statistika, geneetilised algoritmid, jt.

Stiimulõpes keskkond on tüüpiliselt formuleeritud kui Markovi otsustusprotsess (MDP), kuna stiimulõppes paljud algoritmid probleemi lahendamiseks rakendavad dünaamilist programmeerimist. Stiimulõpe vahe klassikalistest algoritmitest on see, et stiimulõpe algoritmidel pole vajadust teada protsessi MDP ning nende abil saab lahendada suuri MDP-sid, kus täpsed lahendused on võimatu.