Suurandmed

Allikas: Vikipeedia
Jump to navigation Jump to search

Suurandmed (inglise keeles big data) on andmed, mis on sedavõrd suure mahuga või keerulised, et nende töötlemiseks ei piisa tavapärastest vahenditest ja ressurssidest.

Andmete maht on aasta-aastalt järjest kasvanud, seejuures ületas digitaalselt talletatud andmete osakaal analoogandmete oma aastal 2002, seda hetke loetakse ka digitaalajastu alguseks[1].

Internetti ühendatud seadmete (vt ka nutistu) poolt toodetavate andmete hulk kasvab eksponentsiaalselt. Kui aastal 2017 toodeti globaalselt andmeid ligikaudu 21 zettabaiti, siis 2018. aastaks ennustati selleks koguseks juba üle 30 zettabaiti aastas ja 2019. aastaks 40 zettabaiti aastas[2].

Märkimisväärne roll digitaalsete andmete loomisel on ka internetikasutajate osakaalul rahvastikust – 2017. aasta lõpuks oli internetikasutajate arv jõudnud 4,17 miljardini[3]. Sotsiaalmeediasse, näiteks YouTube'i laaditakse igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadatakse igapäevaselt ühtekokku miljard tundi[4], Twitteris saadetakse päevas 500 miljonit säutsu[5], Facebookis saadetakse 9 miljonit sõnumit tunnis[6].

Andmete tüübid[muuda | muuda lähteteksti]

Tehnoloogilised arengud võimaldavad kasutada erinevat tüüpi struktureeritud ja struktrureerimata andmeid. Suurandmed jagatakse struktureerimata, poolstruktureeritud ja struktureeritud andmeteks, seejuures on kiiresti arenemas just struktureerimata andmete uurimine[7].

Struktureeritud andmed[muuda | muuda lähteteksti]

Struktrureeritud andmed, mis hõlmavad vaid 5% andmetest [8], viitavad tabelipõhistele andmetele, mida leiab arvutustabelites või vahenduspõhistes andmebaasides. Struktureeritud andmete põhjal tegeldakse näiteks ennustava analüüsiga, mis ongi enim levinud viis suurandmete analüüsiks. Selle kõrval on mittestruktureeritud andmete analüüsimine keerukuse tõttu vähem kasutusel kuid ka see valdkond areneb kiiresti [9]. Judith Hurwitz et al, (2013)[10] kirjeldavad, et struktureeritud andmeid on kahte tüüpi: arvuti- või masintekkelised andmed ja inimtekkelised andmed. Viimased on tekivad kui inimene kasutab arvuteid või muid tehnoloogilisi vahendeid. Masintekkelisi andmeid on omakorda nelja tüüpi: sensoripõhine, targad mõõtjad, meditsiinitehnika ning globaalse positsioneerimise süsteemi andmed. Inimtekkelised andmed on näiteks erinevad sisestatavad andmed nagu nimi, vanus ja muud parameetrid mida ta on valmis enda kohta avaldama. Niisuguste andmete alla liigitub enamasti ka isiku kohta sotsiaalmeediasse jagatud info.

Mittestruktureeritud andmed[muuda | muuda lähteteksti]

Mittestruktureeritud andmed viitavad andmetele millel puudub eeldefineeritud andmemudel või nad ei sobi hästi relatsioonilistesse andmebaasidesse[11]. Mittestruktureeritud andmed on kiiresti kasvav andmetüübi liik. Selle alla käivad nt pildilised, sensorilised, dokumendid, logiandmed, video- ja emaili andmed. Nende ühine nimetaja on see, et puudub strukturaalse organiseeruvuse piisav tase, et olla masinates analüüsitavad.

Poolstruktureeritud andmed[muuda | muuda lähteteksti]

Struktrueeritud ja struktrueerimata andmete vahele paigutuvad poolstruktueeritud andmed, mis ei kohandu kindlatele standarditele. Nende tekkimine ja määratlemine on seotud sellega, et andmed on niivõrd uut tüüpi, et ei kohandu olemasoleva andmebaaside tehnoloogiaga. Selliste andmete töötlemiseks on vaja paremaid päringukeeli, andmete optimeerimise tehnikaid või edasiarendusi olemasolevatele andmemudelitele. Poolstruktureeritud andmed nõuavad siiski töötlemiseks mõningat olemasolevat struktuuri ning mõnede andmetüüpide puhul on see keerukas. Buneman kirjeldab, et internetist saab mõelda ja kui andmebaasist, kuid sellest andmete alla tõmbamiseks on vaja omakorda keerukaid vahendeid. Kuna internet ei allu ühele ühtsele andmemudelile, siis on raske uurida selle struktuuri, enamasti uuritakse pigem teatavaid lehekülgi ja saite.[11]

Omadused[muuda | muuda lähteteksti]

Suurandmeid kirjeldatakse sageli järgmiste põhiomadustega (sulgudes on toodud algsed ingliskeelsed vasted)[12]:

  • maht (volume),
  • kiirus (velocity),
  • sort (variety),
  • varieeruvus (variability),
  • õigsus (veracity),
  • kehtivus (validity),
  • haavatavus (vulnerability),
  • volatiilsus (volatility),
  • visualiseeritus (visualisation),
  • väärtus (value).

Suurandmete omadused ning nende arv varieerub allikati suuresti, kuid alati on ingliskeelsed omadused algustähega v[13].

Rakendamine[muuda | muuda lähteteksti]

Suurandmed, kui on eristatud sordi alusel, omavad teatud tüüpi mustreid ning on töödeldavad masinõppimise abil. Peaasjalikult kasutatakse seni kogutud andmeid prognoositavaks analüüsiks, kasutaja käitumise analüüsiks või rakendatakse muid teatud tüüpi keerulisemaid analüüsimeetodeid, et andmetest olulist väärtuslikku infot koguda [puudub viide]. Analüüsi tulemuslikkuse tagamiseks tuleb koguda õigeid andmeid õiges mahus.

Suurandmete kogumist ja analüüsi kasutatakse mh järgnevates valdkondades:

  • avalik sektor ja valitsus,
  • rahvusvaheline koostöö ja arendustegevus,
  • tootmine,
  • tervishoid,
  • haridus,
  • meedia,
  • nutistu,
  • infotehnoloogia.

Kriitika[muuda | muuda lähteteksti]

Suurandmete analüüsis tuleb eristada kvantitatiivset ja kvalitatiivset lähenemist. Alati ei taga suurem andmete kogus täpsemaid või paremini analüüsitavaid tulemusi, kui analüüsiks kasutatavatest lähteandmetest ei eemaldata ebaolulisi või vale sisuga andmeid. Andmete analüüsiks sageli kasutatav automatiseeritud uurimismeetod võib toota väära tulemuse, kui meetodi koostaja on jätnud arvestamata andmemassiivis esineda võivate eripäradega, mis võivad oluliselt mõjutada tulemuse täpsust. Automatiseeritud meetodi puhul on oht, et mudeli loomise hetkel võis see olla täpne ja toimiv, kuid hilisema andmekaeve käigus võidakse laiendada kogutavate andmete hulka, millega mudel ei oska arvestada ning analüüs ei taga enam korrektset tulemust.[14]

Viited[muuda | muuda lähteteksti]

  1. Hilbert, M., López, P. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Lk 60–65. 
  2. "In-Network Computing and Next Generation HDR 200G InfiniBand". 23.10.2017. Kasutatud 20.03.2018.
  3. "Internet World Stats". 31.12.2017. Kasutatud 20.03.2018.
  4. "YouTube by the Numbers: Stats, Demographics & Fun Facts". 05.02.2018. Kasutatud 20.03.2018.
  5. Salman Aslam. "Twitter by the Numbers: Stats, Demographics & Fun Facts". Omnicore, 01.01.2018. Kasutatud 20.03.2018.
  6. Salman Aslam. "Facebook by the Numbers: Stats, Demographics & Fun Facts". Omnicore, 01.01.2018. Kasutatud 20.03.2018.
  7. Dedić, N.; Stanier, C. (2017). Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery. Kd. 285. Berlin; Heidelberg: Springer International Publishing. 
  8. Cukier K., (2010), The Economist, Data, data everywhere: A special report on managing information February 25, [1]
  9. Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144.[2]
  10. Hurwitz, J. (2013). Big data for dummies. Hoboken, NJ: For Dummies, a Wiley brand.
  11. 11,0 11,1 Buneman, P. (1997). Semistructured data. pp. 117–121. ACM Press.[3]
  12. George Firican. "The 10 Vs of Big Data". 08.02.2017. Kasutatud 20.03.2018.
  13. Tom Shafer. "The 42 V's of Big Data and Data Science". 01.04.2017. Kasutatud 20.03.2018.
  14. Boyd D., Crawford K.. "Six Provocations for Big Data". A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2011, pp 4–8