Objekti tuvastamine

Allikas: Vikipeedia

Objekti tuvastamine on arvutinägemise ja digitaalse pilditöötlusega seotud arvutitehnoloogia, mis tegeleb piltidel ja videotel objektide tuvastamisega.

Objekti tuvastamise raames treenitakse arvuteid märgendama kindlaid objekte iseseisvalt. Tehnoloogiat kasutatakse väga paljudes valdkondades, näiteks inimnägude tuvastamises, videovalvesüsteemides, tööstusdefektide markeerimises, iseliikuvate robotite juhtimises, vähkkasvajate tuvastamises, videomängude loomises ning väikeste detailide märgendamises (näiteks jalgpalli palli asukoht teleülekandes). Arvuteid treenitakse objekte tuvastama kasutades väga suurt hulka sarnaseid pilte või videoid ning tulemuse täpsus on seotud treenimisprotsessi jaoks antud andmemahuga.[1]

Ajalugu[muuda | muuda lähteteksti]

Objektide tuvastamise esialgsed ideed arenesid välja koos esimeste võimsamate arvutitega. 1981. aastal leiutati Stanfordi ülikoolis tehnoloogia ruumiliste kujundite tuvastamiseks.[2] 1987. aastal töötas Irving Biederman välja RBC teooria geoonmudelite tuvastamiseks.[3] 1991. aastal hakati Massachusettsi Tehnoloogiainstituudis treenima näotuvastust, üritades eri valemitega tuvastada inimese näo juures kindlaid iseärasusi ja mustreid.[4] Samal aastal töötati Chicago Ülikooli ja Rochesteri Ülikooli arvutiteaduste instituudis välja süsteeme värvide tuvastamiseks piltidel.[5] 1998. aastal töötati välja MNIST-i andmebaas, mis suutis tuvastada käsitsi kirjutatud numbrimärke 88% täpsusega.[6]

Eri süsteemide ja tehnoloogiate koostööl arenes objekti tuvastamine aina kiiremini ning uute meetodite väljatöötamisega kiirenes arvutite treenimise protsess märgatavalt. Ühe pildi tuvastuse kiirus tõusis 21. sajandi esimesel aastakümnel minutitelt sekunditele ning hiljem millisekunditele, võimaldades reaalajas märgendamist.[1] 2012. aastaks oli MNIST-i andmebaasi täiustatud 99,77% täpsuseni.[6] Arvestades objektituvastusega seotud ülesannetega, näiteks vähkkasvajate varajane märkamine ja iseliikuvad robotid, ei ole paljudes valdkondades vead aktsepteeritavad. Sellega seoses on järjest töötatud välja uusi meetodeid, et treeninguprotsessi parandada.[7]

Meetodid[muuda | muuda lähteteksti]

Objekti tuvastamise meetodid jagunevad enamjaolt kahte gruppi: masinõppepõhised ja süvaõppepõhised meetodid. Masinõppepõhised meetodid vajavad üldiselt kindlalt defineeritud parameetreid, mille järgi klassifitseeritakse objekte tuvastamise jaoks. Süvaõppe puhul on treenimisprotsessi jaoks tavaliselt tehisnärvivõrk, mis kujutab teadmisi mustritena. Mõlema meetodi puhul on kasutusele võetud mitmesuguseid lahendusi.

Populaarsemad masinõppemeetodid[muuda | muuda lähteteksti]

  • Assotsiatsioonireeglite õppimine – andmebaasipõhine süsteem, mis loob relatsioone muutujate vahel. Seoseid luuakse kindlate reeglite põhjal, jagades reeglid omakorda nelja gruppi: juhuslikud seosed, juba teada olevad seosed, uued, ent mitteolulised seosed, ning uued ja olulised seosed.[8]
  • Histogramm orienteeritud gradientidest (HOG) – 2005. aastaks välja töötatud HOG-süsteem muutis töötatava ala väikesteks, omavahel ühendatud tükkideks ning uuris pikslitest koostatud gradientide suundasid nendes tükkides. HOG-süsteem on väga efektiivne kujundite tuvastamiseks, sealhulgas ka inimkuju märkamiseks, ent eeldab, et inimene on loomulikus asendis.[9]
  • Otsustuspuu meetod – diagrammsüsteem, mis kujutab võimalike otsuste tagajärgi eri harudes. Annab loogilise ülevaate, kasutades teekonna väärtusi ning tõenäosusi. Üsna lihtne meetod, mis on tundlik müra ning õpiandmete suhtes. Otsustuspuu võib anda ebakindlaid tulemusi kui õpiandmete vahel on palju keerulisi tunnuseid.[10]
  • Viola-Jonesi meetod – Paul Viola ja Michael Jonesi 2001. aastal välja töötatud meetod suutis väga efektiivselt reaalajas tuvastada nägusid. Süsteem õppis selgeks kindlad näo eripärad ja üldised tunnused ning märgendas sellised omadused vähemalt kaks kaadrit sekundis. See meetod oli üles ehitatud ainult näotuvastusele.[11]

Populaarsemad süvaõppemeetodid[muuda | muuda lähteteksti]

  • Regionaalsed lahendused – R-CNN[12], Fast R-CNN[13], Faster R-CNN[14] leiavad piltide kõikvõimalikke kujundeid ja märgendeid ning tõenäosusi, et mõni neist on vastavalt sobiv antud olukorra puhul
  • You Only Look Once (YOLO) – väga kiire tuvastussüsteem, mis võimaldab lisaks piltidele ka reaalajas video materjali märgendamist[15]

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 Md Zahangir Alom, Tarek M. Taha, Chris Yakopcic, Stefan Westberg, Paheding Sidike, Mst Shamima Nasrin, Brian C Van Essen, Abdul A S. Awwal, Vijayan K. Asari. "The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches" (PDF). Vaadatud 21.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  2. Rodney A. Brooks. "MODEL-BASED THREE DIMENSIONAL INTERPRETATIONS OF TWO DIMENSIONAL IMAGES" (PDF). Vaadatud 19.11.2018.
  3. Irving Biedermann. "Recognition-by-Components: A Theory of Human Image Understanding" (PDF). Vaadatud 19.11.2018.
  4. Matthew Turk, Alex Pentland. "Eigenfaces for Recognition" (PDF). Vaadatud 19.11.2018.
  5. Color Indexing. "Michael J. Swain, Dana H. Ballard" (PDF). Vaadatud 19.11.2018.
  6. 6,0 6,1 Yann LeCun, Corinna Cortes, Christopher J.C. Burges. "The MNIST Database". Vaadatud 19.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  7. Prince Grover. "Evolution of Object Detection and Localization Algorithms". Vaadatud 21.11.2018.
  8. Asko Tiidumaa. "Assotsiatsioonireeglite leidmine suurtest andmehulkadest" (PDF). Originaali (PDF) arhiivikoopia seisuga 10.08.2017. Vaadatud 19.11.2018.
  9. Carlo Tomasi. "Histograms of Oriented Gradients" (PDF). Vaadatud 19.11.2018.
  10. Stuart Eriksen, Candice Hyunh, L. Robin Keller. "Decision trees" (PDF). Originaali (PDF) arhiivikoopia seisuga 17.04.2016. Vaadatud 19.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  11. Paul Viola, Michael Jones. "Rapid Object Detection using a Boosted Cascade of Simple Features". Vaadatud 19.11.2018.
  12. Ross Girshick, Jeff Donahue, Trevoer Darrell, Jitendra Malik. "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Vaadatud 19.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  13. Ross Girshick. "Fast R-CNN" (PDF). Vaadatud 19.11.2018.
  14. Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks" (PDF). Vaadatud 19.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  15. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi. "You Only Look Once: Unified, Real-Time Object Detection". Vaadatud 19.11.2018.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)