Inimtagasisidest lähtuv stiimulõpe
![]() | Artikkel vajab vormindamist vastavalt Vikipeedia vormistusreeglitele. |
![]() | See artikkel ootab keeletoimetamist. (Aprill 2025) |
Inimtagasisidest lähtuv stiimulõpe (inglise keeles reinforcement learning from human feedback, lühend RLHF) on juhendatud masinõppe meetod, mis kasutab inimese tagasisidet, et optimeerida tehisintellekti agendi käitumist.
Stiimulõpe koos inimtagasisidega on stiimulõppe haru, mis kasutab inimestelt kogutud andmeid preemiafunktsiooni defineerimiseks, ilma seda käsitsi disainimata.[1] Tehisintellekti agendi eesmärk on lähtestada oma funktsioon võimalikult lähedale abstraktsele inimväärtustega kooskõlas olevale preemiafunktsioonile [1] ja seejärel maksimeerida selle väljundit [2]. Valdkond on tihedalt seotud nii tehisintellekti kui ka inimese ja arvuti interaktsiooni valdkonnaga. [1] Preemia- ja eesmärkfunktsioonid eksisteerivad selleks, et aidata tehisintellekti süsteemil tabada inimese või disaineri tegelik tahe ülesande teostamiseks [3]. Oma olemuselt on RLHF naturaalsem lähenemine tehisaru agentide loomisele, kuna agent peab ise välja mõtlema optimaalse strateegia vastavalt keskkonna dünaamikale ja oma käitumise tagasisidele. See sarnaneb ka pärismaailmaga, kus inimesed peavad ise otsustama, milliste eesmärkide poole püüelda.
Ajalugu
[muuda | muuda lähteteksti]Paljudes stiimulõpet kasutavates masinõppeülesannetes on ajalooliselt preemiafunktsioon defineeritud käsitsi.[4] Näiteks 2015. aastal treenisid Google DeepMindi teadlased stiimulõpet kasutades tehisintellekti süsteemi mängima lauamängu Go, defineerides preemiafunktsiooni mängu lõpus +1 võidu ja -1 kaotuse korral [5]. Päriselu ülesannetes on käsitsi preemiafunktsiooni disainimine keeruline ülesanne. Näiteks kui anda humanoidrobotile ülesanne koristada aed ära, pole koheselt triviaalne, kuidas preemiafunktsiooni matemaatiliselt defineerida. See võib viia olukorrani, kus autonoomsed süsteemid teevad ettearvamatuid otsuseid. Konflikt traditsiooniliste stiimulõppe süsteemide eesmärkfunktsioonide ja reaalsete inimväärtuste vahel on tõstatanud joondamise probleemi küsimuse (ingl alignment problem). [6] [7]
Metoodika
[muuda | muuda lähteteksti]Stiimulõppe oluliseks osaks on keskkond, kus agent saab oma tegevuste põhjal preemiat. Sellisele õppekeskkonnale on karakteristlik järjestikuste otsuste tegemine, mida saab formaalselt kirjeldada Markovi otsustusprotsessidega (MDP).[2] Preemiafunktsioon pole teada ja seda õpitakse läbi inimese tagasiside [1]. Märgendaja on inimene, kes saab anda informatsiooni preemia kohta agendile.[1] Saadud andmete põhjal õpib agent ligikaudselt lähendama preemiafunktsiooni koos stiimulõppe poliitikaga [1].
Rakendused
[muuda | muuda lähteteksti]Keelemudelid on masinõppe mudelid, mida treenitakse suure koguse teksti peal, et ennustada etteantud teksti põhjal järgmist sõna või sümbolit. Kasutajasõbra väljundi saavutamiseks kasutatakse RLHF-i keelemudelite arhitektuuris [8], mis on teadaolevalt ka rakenduse ChatGPT edu võti [9].
RLHF-i on kasutatud ka isesõitvates autodes turvalise käitumispoliitika loomiseks [10].
Väljavaated ja probleemid
[muuda | muuda lähteteksti]Märgenduste[viide?] käsitsi kogumine teeb RLHF-i suurtes rakendustes kasutamise kalliks ja ajamahukaks. Selle probleemi lahendamiseks on Anthropic ja Bai et al. [11] välja pakkunud lahenduse kasutada tehisintellekti ise, et juhendada tuleviku süsteeme ilma inimesi kui märgendajaid kasutamata. Nad näitasid, et olemasolevaid keelemudelit saab efektiivselt kasutada kahjulike väljundite tuvastamisel [11].
Kvaliteetsete andmete kogumine inimestelt on osaliselt piiratud, kuna inimeste eelistused muutuvad ajas, sõltuvad eelarvamustest, küsimuse raamingust ning kognitiivsest seisundist.[1] Näiteks näitasid Hosking et al. [12], kuidas suure keelemudeli peenhäälestamisel eelistasid märgendajad enesekindlaid vastuseid märkimisväärselt rohkem kui faktipõhiseid. Tõesete ja eelarvamusteta eelistuste mõõtmine inimestelt on sotsiaalteaduses käimasolev uurimisprobleem psühhomeetria valdkonnas. [13]
Viited
[muuda | muuda lähteteksti]- ↑ 1,0 1,1 1,2 1,3 1,4 1,5 1,6 Kaufmann, T., Weng, P., Bengs, V., & Hüllermeier, E. (2023). A Survey of Reinforcement Learning from Human Feedback. https://arxiv.org/abs/2312.14925v2
- ↑ 2,0 2,1 Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. A Bradford Book.
- ↑ Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete Problems in AI Safety. https://arxiv.org/abs/1606.06565v2
- ↑ Christiano, P. F., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 2017-December, 4300–4308. https://arxiv.org/abs/1706.03741v4
- ↑ Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., Dieleman, S., Grewe, D., Nham, J., Kalchbrenner, N., Sutskever, I., Lillicrap, T., Leach, M., Kavukcuoglu, K., Graepel, T., & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489. https://doi.org/10.1038/NATURE16961
- ↑ Christian, B. (2020). The Alignment Problem: Machine Learning and Human Values. WW Norton. https://books.google.ee/books?id=VmJIzQEACAAJ
- ↑ Russell, S. (2019). Human Compatible: Artificial Intelligence and the Problem of Control. Penguin Publishing Group. https://books.google.ee/books?id=M1eFDwAAQBAJ
- ↑ Rawal, N., Tavva, P., & Selvakumar, P. (2024). Enhancing Large Language Model Performance with Reinforcement Learning from Human Feedback: A Comprehensive Study on Q&A, Summarization, and Classification. International Conference on Electrical, Computer, and Energy Technologies, ICECET 2024. https://doi.org/10.1109/ICECET61485.2024.10698396
- ↑ Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., Chen, Y., Ecoffet, A., Joglekar, M., Leike, J., Sutskever, I., & Wu, J. (2023). Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. Proceedings of Machine Learning Research, 235, 4971–5012. https://arxiv.org/abs/2312.09390v1
- ↑ Huang, Z., Sheng, Z., & Chen, S. (2024). Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving. https://openurl.ebsco.com/contentitem/edsarx:edsarx.2409.00858?sid=ebsco:plink:crawler&id=ebsco:edsarx:edsarx.2409.00858&crl=c
- ↑ 11,0 11,1 Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. https://arxiv.org/abs/2212.08073v1
- ↑ Hosking, T., Blunsom, P., & Bartolo, M. (2023). Human Feedback is not Gold Standard. 12th International Conference on Learning Representations, ICLR 2024. https://arxiv.org/abs/2309.16349v2
- ↑ Furr, R. M., & Bacharach, V. R. (2014). Psychometrics: An Introduction. SAGE Publications. https://books.google.ee/books?id=FjQ3VG2cBtgC