Andmeteadus

Allikas: Vikipeedia
Mine navigeerimisribale Mine otsikasti
Komeet NEOWISE (pildil kujutatud punaste punktide jadana) olemasolu avastati kosmoseteleskoobi WISE tehtud astronoomiliste mõõtmiste andmete analüüsimise tagajärjel

Andmeteadus on interdistsiplinaarne valdkond, milles kasutatakse mitmeid tehnikaid ja lähenemisi, et saada teadmisi ja sügavamat arusaamist struktureeritud ja struktureerimata andmetest.[1][2] Andmeteadus on seotud andmekaeve ja suurandmetega.[2]

Andmeteadus ühendab statistika, andmete analüüsi ja nendega seotud meetodid "mõistmaks, analüüsimaks tegelikke nähtusi" andmete abil.[3] Andmeteadus kasutab matemaatika, statistika, informaatika, valdkondlike teadmiste ja infoteaduste valdkondadest pärinevaid tehnikaid ja teooriaid. Turingi auhinna võitja Jim Gray kujutab andmeteadust ette teaduse "neljanda paradigmana" (empiirilise, teoreetilise, arvutusliku ja nüüd andmetest juhitavana) ning väitis, et "kõik teaduses on infotehnoloogia mõju tõttu muutumas" ja rääkis andmete üleküllusest.[4][5]

Andmeteaduse mõiste[muuda | muuda lähteteksti]

Kuigi mitmed uurijad on püüdnud andmeteadust defineerida, puudub sellel üks kindel ja üldtunnustatud määratlus.[6]

  • John D. Kelleher ja Brendan Tierney defineerivad andmeteadust põhimõtete, probleemipüstituste, algoritmide ja protsesside kogumina, mille abil on võimalik eraldada mitmekülgseid ja kasulikke seaduspärasid suurtest andmekogumitest. Nad mainivad veel, et andmeteaduse väljakutsed on näiteks sotsiaalmeedia struktureerimata andmete kogumine, puhastamine ja muundamine, suurandmete tehnoloogia kasutamine suurte andmekogumite säilitamiseks ja töötlemiseks ning andmete kasutamise eetika regulatsioonidega seotud probleemid.[10]
  • Andmeteaduse Ühing defineerib andmeteadust kui andmete loomise, kehtivuse kontrollimise ja muutmise teaduslikku uurimist, mille eesmärk on tähenduse loomine.[11]

Seejuures ollakse üksmeelel, et andmeteadus tegeleb suurandmetest väärtuslike mustrite tuvastamise ja kaevandamisega, andmete muutmisega informatsiooniks ja teadmisteks.[6] Andmeteadus hõlmab kõiki tegevusi, mis aitavad andmete põhjal kasulikke otsuseid teha. Andmeteadus ei ole eraldi eesmärk – see on kogum meetodeid, mis aitab juba seatud eesmärke paremini saavutada, kasutades selleks andmeid.[2]

Mõiste seos statistikaga[muuda | muuda lähteteksti]

Statistikud koos Nate Silveriga on väitnud, et andmeteadus pole eraldiseisev valdkond ja teda võib pidada uueks statistika nimetuseks.[12] Leidub arvamusi, et andmeteadus erineb statistikast, kuna keskendub probleemidele ja meetoditele, mis on ainuomased vaid digitaalsel kujul esinevatele andmetele.[13] Stanfordi professor David Donoho arvates ei erista andmeteadust statistikast andmekogumite suurus ja masinarvutuste kasutamine. Tema hinnangul nimetavad paljud ülikoolide oma õppekavade analüüsi- ja statistika õppeaineid andmeteadusena reklaami eesmärgil. Tema kirjelduses on andmeteadus rakendusvaldkond, mis on välja kasvanud traditsioonilisest statistikast.[14] Kokkuvõtvalt võib andmeteadust pidada rakendusstatistika haruks.

Andmeteaduse soovituslik töötsükkel[muuda | muuda lähteteksti]

Autorite Il-Yeol Songi ja Yongjun Su hinnangul peaks andmeteadlane oma töös läbima kaheksa etappi.[15]

1. Küsimuste ja võimaluste

mõistmine

Millisele küsimusele vastust otsitakse? Milliseid mõõdikuid hinnatakse?

Hüpoteesi sõnastamine. Ressursside (inimesed, andmed, töövahendid) hindamine.

2. Andmete mõistmine Andmeressursside tuvastamine, andmete taaskasutamise ja integreerimise kava, andmete tuvastamine ja tööriistade üle otsustamine.
3. Andmete ettevalmistamine Andmete hankimine ja hindamine, puhastamine, teisendamine. Andmete kvaliteedi kontrollimine.
4. Mudeli planeerimine Meetodite, tehnikate ja töövoo kindlaks määramine. Peamiste muutujate valimine ja nendevahelise korrelatsiooni määramine.
5. Mudeli loomine Mudeli loomine, selle analüüs ja kordamine.
6. Hindamine Hindamine mõõdikute alusel. Tulemuste ja soovituste esitamine.
7. Juurutamine Analüüsiprotseduuride integreerimine töölaua jms süsteemidega.
8. Jälgimine Tegevuse jälgimine ja parandamist vajavate osade väljaselgitamine.

Rakendusvaldkonnad[muuda | muuda lähteteksti]

Andmeteadust rakendatakse aina rohkem paljudes valdkondades, sealhulgas äris, majanduses, tööstuses, hariduses, füüsikas, tervishoius, põllumajanduses, poliitikas, juhtimises, turunduses, transpordikorralduses, linnaplaneerimises, kosmoseteaduses ja sotsioloogias.[6] Enim on suurandmete kasutamisest kasu saanud näiteks jaemüük, telekommunikatsioon, nõustamine, tervishoid, lennutransport, ehitus, toiduainetetööstus, tootmine, tööstusvahendid, autotööstus, klienditeenindus, finantsteenused, kirjastamine ja logistika.[16]

Andmeteaduse rakendusvaldkonnad on näiteks:

  • pettuste tuvastamine ja riskide hajutamine – näiteks pangad ennustavad kliendi maksevõimekust tulevikus;
  • meditsiin ja tervishoid – näiteks koepiltidest vähirakkude tuvastamine, ravimite väljatöötamine, personaalne meditsiin;
  • interneti otsingumootorid – Google, Bing, Yahoo! ja muud otsingumootorid kasutavad andmeteaduse algoritme, et pakkuda parimaid otsingutulemusi;
  • reklaami sihtimine – algoritmide abil suunatakse reklaami internetis vastavalt kasutaja varasemale käitumisele;
  • pildituvastus (advanced image recognition) – näiteks Google'i pildiotsing;
  • kõnetuvastus – näiteks Google Voice, Siri, Cortana jne, kus häälsõnum teisendatakse tekstiks;
  • lennuliikluse planeerimine – näiteks hilinemiste prognoosimine, lisalennukite ostu planeerimine;
  • mängud (gaming) – on kavandatud masinõppe algoritmidega, mis parandavad/täiendavad ennast mängija jõudmisel järgmisele tasemele. Ka liikumismängude korral analüüsib vastane (arvuti) mängija varasemaid käike ja kujundab vastavalt sellele mängu;
  • liitreaalsus (augmented reality) – andmeteadus ja virtuaalreaalsus (VR) on omavahel seotud. VR-peakomplekt sisaldab algoritme ja andmeid. Näiteks Pokemon GO mäng, mis paneb mängija füüsilises maailmas ringi liikuma ja Pokemone taga ajama.[17]

Andmeteadlase oskused[muuda | muuda lähteteksti]

Andmeteadlane otsib suurtest andmekogumitest mustreid ja seoseid kasutades mitmesuguseid vahendeid, tehnikaid ja kriitilist mõtlemist, et pakkuda reaalse eluga seotud andmekesksele probleemidele kasulikke lahendusi.[18] Andmeteadlase elukutset on peetud üheks 21. sajandi kõige olulisemaks.[19] Ameerika Ühendriikide tööotsinguportaal Glassdoor tunnistas andmeteadlase 2018. aastal parimaks ametiks.[20] Andmeteadlased vajavad komplekssete probleemide lahendamiseks laiapõhjalisi teadmisi ja oskusi mitmetest valdkondadest, näiteks matemaatika ja statistika, arvutiteadus ja infoteadus. Andmeteadus on tihedalt seotud tõenäosusmudelite, andmekaeve, andmete visualiseerimise ja käsitletava valdkonna teadmistega.[6]

Andmeteadlasele vajalikud oskused:

Andmeteaduse õpetamine Eestis[muuda | muuda lähteteksti]

Tartu Ülikooli arvutiteaduse instituut avas 2020. aasta sügisel andmeteaduse eestikeelse magistriõppekava. Andmeteaduse üliõpilastel on Tartu Ülikoolis võimalik valida kolme õppesuuna vahel:

  • andmeteadus äriettevõttes
  • andmeteadus digihumanitaarias ja sotsiaalteadustes
  • andmeteadus loodus- ja terviseteadustes[22]

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

  1. EDUCBA. "Data Science Machine Learning". Vaadatud 10.12.2019.
  2. 2,0 2,1 2,2 Data Science Estonia. "Mis on andmeteadus?". Vaadatud 11.12.2019.
  3. Hayashi, Chikio. "What is Data Science? Fundamental Concepts and a Heuristic Example". peatükis Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa. Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (inglise keeles). Springer Japan. lk 40–51. ISBN 9784431702085. doi:10.1007/978-4-431-65950-1_3. 
  4. Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4. Originaali arhiivikoopia seisuga . 
  5. Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science 323 (5919): 1297–1298. ISSN 0036-8075. PMID 19265007. doi:10.1126/science.1170411. 
  6. 6,0 6,1 6,2 6,3 Virkus, S. & Garoufallou, E. (2019), "Data science from a library and information science perspective", Data Technologies and Applications, Vol. 53 No. 4, lk 422-441. https://doi.org/10.1108/DTA-05-2019-0076
  7. Dhar, V. (2013), “Data science and prediction”, Communications of the ACM, Vol. 56 No. 12, lk 64-73. https://doi.org/10.1145/2500499
  8. Provost, F. & Fawcett, T. (2013), “Data science and its relationship to Big Data and data-driven decision making”, Big Data, Vol. 1 No. 1, lk 51-59. http://doi.org/10.1089/big.2013.1508
  9. Foreman, J.W. (2013), Data Smart: Using Data Science to Transform Information into Insight, John Wiley & Sons, Hoboken, NJ.
  10. "Data Science". Vaadatud 03.01.2020.
  11. Data Science Association. "About Data Science". Vaadatud 10.12.2019.
  12. "Nate Silver: What I need from statisticians - Statistics Views". www.statisticsviews.com. 
  13. "What's the Difference Between Data Science and Statistics?". Priceonomics (inglise keeles). 
  14. Donoho, David. "50 years of Data Science". 
  15. Song, I-Y, & Zhu, Y. (2017), "Big Data and Data Science: Opportunities and Challenges of iSchools", Journal of Data and Informaton Science, Vol. 2 No. 3, lk 1-18. https://doi.org/10.1515/jdis-2017-0011
  16. Voulgaris, Z. (2014), Data Scientist: The Definitive Guide to Becoming a Data Scientist, Technics Publications, Westfield, NJ.
  17. Upsana. "Top 10 Data Science Applications". 26. november 2019. Vaadatud 01.01.2020.
  18. Asha Saxena. "Is 'Data Scientist' the 'Sexiest Job of the 21st Century'? And How Do You Get One of Your Own?". Entrepreneur, 30. jaanuar 2019. Vaadatud 01.01.2020.
  19. Arvamusfestival. "Mis on andmeteadus?". Vaadatud 10.12.2019.
  20. Amy Elisa Jackson. "The 50 Best Jobs in America for 2018". 23. jaanuar 2018. Vaadatud 01.01.2020.
  21. Taivo Pungas. "Andmeteadus: vajalikud oskused ja kuidas alustada". 11. juuni 2015. Vaadatud 11.12.2019.
  22. Tartu Ülikool. "Andmeteadus". Vaadatud 02.01.2020.