Suurandmed

Allikas: Vikipeedia
Jump to navigation Jump to search

Suurandmed (inglise keeles big data) on andmed, mis on sedavõrd suure mahuga või keerulised, et nende töötlemiseks ei piisa tavapärastest vahenditest ja ressurssidest.

Andmete maht on aasta-aastalt järjest kasvanud, seejuures ületas digitaalselt talletatud andmete osakaal analoogandmete oma aastal 2002, seda hetke loetakse ka digitaalajastu alguseks[1].

Internetti ühendatud seadmete (vt ka nutistu) poolt toodetavate andmete hulk kasvab eksponentsiaalselt. Kui aastal 2017 toodeti globaalselt andmeid ligikaudu 21 zettabaiti, siis 2018. aastaks ennustati selleks koguseks juba üle 30 zettabaiti aastas ja 2019. aastaks 40 zettabaiti aastas[2].

Märkimisväärne roll digitaalsete andmete loomisel on ka internetikasutajate osakaalul rahvastikust – 2017. aasta lõpuks oli internetikasutajate arv jõudnud 4,17 miljardini[3]. Sotsiaalmeediasse, näiteks YouTube'i laaditakse igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadatakse igapäevaselt ühtekokku miljard tundi[4], Twitteris saadetakse päevas 500 miljonit säutsu[5], Facebookis saadetakse 9 miljonit sõnumit tunnis[6].

Tekkeviisid[muuda | muuda lähteteksti]

Inimgeograaf Rob Kitchin[7] (2014) eristab kolme tüüpi andmete tekkimise viisi: otsene, automaatne ja vabatahtlik.

Otsese andmete kogunemise viisi näited on valvekaamerad, digiseadmeid kasutavad teaduslikud katsed ning mitmesuguste mittedigitaalsete dokumentide digiteerimine.

Automatiseeritud andmete tekkemehhanismide all võib välja tuua automatiseeritud järelevalve, tundlikud sensorid ja nende kogutavad andmed, ülekande- ja suhtlemistegevustel tekkiv jäädvustus. Lisaks veel internet kui selline ning masinate omavahelisest suhtlusest alles jääv märge.

Vabatahtlikku andmete panustamist iseloomustavad sotsiaalmeedia, sousveillance ehk vabatahtlik jälgimisseadmetega seondumine, crowdsourcing ehk ühisloome ning kodanikuteadus. Kitchin[7] (2014) osutab, et eri andmekogumise vahendid ei ole sugugi viimasel ajal kujunenud, vaid juba aastaid kasutusel. Ilmaprognoosid, turukäitumiste arvutuslikud ennustused jms on kasutusel juba pikemat aega, kuid nende andmete laiema ja kitsama funktsioonivälise uurimise võimaldamiseks vajalikud suhtlusvõimalused ning nende disaini ja säilitamise võimekus on kättesaadav alles viimasel ajal.

Andmete tüübid[muuda | muuda lähteteksti]

Tehnoloogilised arengud võimaldavad kasutada eri tüüpi struktureeritud ja struktrureerimata andmeid. Suurandmed jagatakse struktureerimata, poolstruktureeritud ja struktureeritud andmeteks, seejuures on kiiresti arenemas just struktureerimata andmete uurimine[8].

Struktureeritud andmed[muuda | muuda lähteteksti]

Struktrureeritud andmed, mis hõlmavad vaid 5% andmetest [9], viitavad tabelipõhistele andmetele, mida leiab arvutustabelites või vahenduspõhistes andmebaasides. Struktureeritud andmete põhjal tegeldakse näiteks ennustava analüüsiga, mis ongi enim levinud viis suurandmete analüüsiks. Selle kõrval on mittestruktureeritud andmete analüüsimine keerukuse tõttu vähem kasutusel kuid ka see valdkond areneb kiiresti [10]. Judith Hurwitz et al, (2013)[11] kirjeldavad, et struktureeritud andmeid on kahte tüüpi: arvuti- või masintekkelised andmed ja inimtekkelised andmed. Viimased on tekivad kui inimene kasutab arvuteid või muid tehnoloogilisi vahendeid. Masintekkelisi andmeid on omakorda nelja tüüpi: sensoripõhine, targad mõõtjad, meditsiinitehnika ning globaalse positsioneerimise süsteemi andmed. Inimtekkelised andmed on näiteks inimese sisestatavad andmed nagu nimi, vanus ja muud parameetrid, mida ta on valmis enda kohta avaldama. Niisuguste andmete alla liigitub enamasti ka isiku kohta sotsiaalmeediasse jagatud info.

Mittestruktureeritud andmed[muuda | muuda lähteteksti]

Mittestruktureeritud andmed viitavad andmetele millel puudub eeldefineeritud andmemudel või nad ei sobi hästi relatsioonandmebaasidesse[12]. Mittestruktureeritud andmed on kiiresti kasvav andmetüübi liik. Selle alla käivad nt pildilised, sensorilised, dokumendid, logiandmed, video- ja e-posti andmed. Nende ühine nimetaja on see, et puudub strukturaalse organiseeruvuse piisav tase, et olla masinates analüüsitavad.

Poolstruktureeritud andmed[muuda | muuda lähteteksti]

Struktrueeritud ja struktrueerimata andmete vahele paigutuvad poolstruktureeritud andmed, mis ei kohandu kindlatele standarditele. Nende tekkimine ja määratlemine on seotud sellega, et andmed on niivõrd uut tüüpi, et ei kohandu olemasoleva andmebaaside tehnoloogiaga. Selliste andmete töötlemiseks on vaja paremaid päringukeeli, andmete optimeerimise tehnikaid või edasiarendusi olemasolevatele andmemudelitele. Poolstruktureeritud andmed nõuavad siiski töötlemiseks mõningat olemasolevat struktuuri ning mõnede andmetüüpide puhul on see keerukas. Buneman kirjeldab, et internetist saab mõelda ja kui andmebaasist, kuid sellest andmete alla tõmbamiseks on vaja omakorda keerukaid vahendeid. Kuna internet ei allu ühele ühtsele andmemudelile, siis on raske uurida selle struktuuri, enamasti uuritakse pigem teatavaid lehekülgi ja saite.[12]

Omadused[muuda | muuda lähteteksti]

Suurandmeid kirjeldatakse sageli järgmiste põhiomadustega (sulgudes on toodud algsed ingliskeelsed vasted)[13]:

  • maht (volume),
  • kiirus (velocity),
  • sort (variety),
  • varieeruvus (variability),
  • õigsus (veracity),
  • kehtivus (validity),
  • haavatavus (vulnerability),
  • volatiilsus (volatility),
  • visualiseeritus (visualisation),
  • väärtus (value).

Suurandmete omadused ning nende arv varieerub allikati suuresti, kuid alati on ingliskeelsed omadused algustähega v[14].

Rakendamine[muuda | muuda lähteteksti]

Suurandmed, kui on eristatud sordi alusel, omavad teatud tüüpi mustreid ning on töödeldavad masinõppimise abil. Peaasjalikult kasutatakse seni kogutud andmeid prognoositavaks analüüsiks, kasutaja käitumise analüüsiks või rakendatakse muid teatud tüüpi keerulisemaid analüüsimeetodeid, et andmetest olulist väärtuslikku infot koguda [puudub viide]. Analüüsi tulemuslikkuse tagamiseks tuleb koguda õigeid andmeid õiges mahus.

Suurandmete kogumist ja analüüsi kasutatakse näiteks järgmistes valdkondades:

  • avalik sektor ja valitsus,
  • rahvusvaheline koostöö ja arendustegevus,
  • tootmine,
  • tervishoid,
  • haridus,
  • meedia,
  • nutistu,
  • infotehnoloogia.

Andmete analüüs[muuda | muuda lähteteksti]

Kuna inimesi on arvuteid ja tehnikat kasutamas palju ja neid kasutatakse mitmetel eri viisidel, on ka kogunevad andmete hulgad suured. Alati ei pea olema palju andmeid selleks, et need oleksid suured. Erinevaid andmete vorme nagu näiteks videoandmeid ei pruugi olla palju, aga need on mahukad. Iseloomust tulenevalt liigituvad nad suurandmete alla. Lisaks on suurel osal seda tüüpi andmetest ka reaalajas tekkimise aspekt, mis võimaldab mõista võimalikke mustreid ning teha järeldusi jaennustusi.

Andmete analüüsimise protsess jaguneb üldjoontes kahte alaetappi: andmete haldamine ja nende analüüsimine. Andmete haldamine hõlmab protsesse ja tehnoloogiaid, et esitada päring andmetele, neid hoiustada, seejärel analüüsiks ette valmistada ja viimaks analüüsida.

Andmete analüüsimise protsess jaguneb üldjoontes kahte alaetappi: andmete haldamine ja nende analüüsimine. Andmete haldamine hõlmab protsesse ja tehnoloogiaid, et esitada päring andmetele, neid hoiustada, seejärel analüüsiks ette valmistada ja viimaks analüüsida.

Suurandmete analüüs jaguneb viide etappi (Labrinidis ja Jagadish, 2012)[15]:

  1. kogumine-talletamine;
  2. eraldamine, puhastamine ja annotatsioon;
  3. integreerimine, agregeerimine ja representatsioon;
  4. modelleerimine ja analüüs;
  5. tõlgendamine.

Sivarajah et al (2017)[16] kirjeldab suurandmete analüüsimise ja hoiustamisega seonduvaid probleeme. Esimene etapp, ehk andmete kogumine ja talletamine on keerukas, kuna kogutavad andmed tekivad väga erinevatest allikatest ja keerukas on ka nendest väärtuse eristamine analüüsiprotsessi tarvis. Selle etapi väljakutsed on andmetele piisavate filtrite rakendamist, et talletatud informatsiooni korrapärasusi ja ebakõlasid adekvaatselt jäädvustada. Eraldamise ja puhastamise etapis üritatakse suurest struktureerimata andmemassiivist välja sõeluda vajalik ja kasutatav informatsioon. On tehnoloogiline väljakutse välja töötada andmekaeveks piisavalt võimekad vahendid. Kui andmekaeve on olnud edukas siis järgneb sellele puhastatud andmete integreerimine , mis üritab eraldatud andmed nende pärinemise kontekstis võimalikult süstemaatiliselt organiseerida. Selles faasis on andmete kontekst ja sisu ja muutub näiteks sotsiaalteadlastele juba sisulisemaks uuringus kasutatas materjaliks. Sivarajah et al (2016)[16] rõhutab, et praegused andmete integreerimise süsteemid on kahjuks veel puudulikud võimaldamaks tõhusat andmete agregeerimist. Järgmine etapp on andmete analüüs ja modelleerimine. Selles faasis üritatakse andmekaeve tulemusel kogutus andmetest eristada mustreid ja suhteid. See aga on väga keeruline, kuna suurandmed on väga "mürarikkad", heterogeensed ja dünaamilised. Sellise analüüsi ja andmete modelleerimiseks on vaja analüüsi jaoks varasemast suuremat tehnoloogilist võimekust. Viimane andmete tõlgendamine, et selle põhjal otsuseid langetada. See on keeruline ja selleks kompetentseid inimesi on hetkel veel suhteliselt vähe.

Kriitika[muuda | muuda lähteteksti]

Suurandmete analüüsis tuleb eristada kvantitatiivset ja kvalitatiivset lähenemist. Alati ei taga suurem andmete kogus täpsemaid või paremini analüüsitavaid tulemusi, kui analüüsiks kasutatavatest lähteandmetest ei eemaldata ebaolulisi või vale sisuga andmeid. Andmete analüüsiks sageli kasutatav automatiseeritud uurimismeetod võib toota väära tulemuse, kui meetodi koostaja on jätnud arvestamata andmemassiivis esineda võivate eripäradega, mis võivad oluliselt mõjutada tulemuse täpsust. Automatiseeritud meetodi puhul on oht, et mudeli loomise hetkel võis see olla täpne ja toimiv, kuid hilisema andmekaeve käigus võidakse laiendada kogutavate andmete hulka, millega mudel ei oska arvestada ning analüüs ei taga enam korrektset tulemust.[17]

Viited[muuda | muuda lähteteksti]

  1. Hilbert, M., López, P. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Lk 60–65. 
  2. "In-Network Computing and Next Generation HDR 200G InfiniBand". 23.10.2017. Vaadatud 20.03.2018.
  3. "Internet World Stats". 31.12.2017. Vaadatud 20.03.2018.
  4. "YouTube by the Numbers: Stats, Demographics & Fun Facts". 05.02.2018. Vaadatud 20.03.2018.
  5. Salman Aslam. "Twitter by the Numbers: Stats, Demographics & Fun Facts". Omnicore, 01.01.2018. Vaadatud 20.03.2018.
  6. Salman Aslam. "Facebook by the Numbers: Stats, Demographics & Fun Facts". Omnicore, 01.01.2018. Vaadatud 20.03.2018.
  7. 7,0 7,1 Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big Data & Society, 1(1), 205395171452848. https://doi.org/10.1177/2053951714528481
  8. Dedić, N.; Stanier, C. (2017). Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery. Kd. 285. Berlin; Heidelberg: Springer International Publishing. 
  9. Cukier K., (2010), The Economist, Data, data everywhere: A special report on managing information February 25, [1]
  10. Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144.[2]
  11. Hurwitz, J. (2013). Big data for dummies. Hoboken, NJ: For Dummies, a Wiley brand.
  12. 12,0 12,1 Buneman, P. (1997). Semistructured data. pp. 117–121. ACM Press
  13. George Firican. "The 10 Vs of Big Data". 08.02.2017. Vaadatud 20.03.2018.
  14. Tom Shafer. "The 42 V's of Big Data and Data Science". 01.04.2017. Vaadatud 20.03.2018.
  15. Labrinidis, A., Jagadish, H. V. (2012). Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 5(12), 2032–2033. https://doi.org/10.14778/2367502.2367572
  16. 16,0 16,1 Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, 70, 263–286. https://doi.org/10.1016/j.jbusres.2016.08.001
  17. Boyd D., Crawford K.. "Six Provocations for Big Data". A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2011, pp 4–8