Suurandmed

Allikas: Vikipeedia
Jump to navigation Jump to search

Suurandmed (inglise keeles big data) on andmed, mis on sedavõrd suure mahuga või keerulised, et nende töötlemiseks ei piisa tavapärastest vahenditest ja ressurssidest.

Andmete maht on aasta-aastalt järjest kasvanud, seejuures ületas digitaalselt talletatud andmete osakaal analoogandmete oma aastal 2002, seda hetke loetakse ka digitaalajastu alguseks[1].

Internetti ühendatud seadmete (vt ka nutistu) poolt toodetavate andmete hulk kasvab eksponentsiaalselt. Kui aastal 2017 toodeti globaalselt andmeid ligikaudu 21 zettabaiti, siis 2018. aastaks ennustati selleks koguseks juba üle 30 zettabaiti aastas ja 2019. aastaks 40 zettabaiti aastas[2].

Märkimisväärne roll digitaalsete andmete loomisel on ka internetikasutajate osakaalul rahvastikust – 2017. aasta lõpuks oli internetikasutajate arv jõudnud 4,17 miljardini[3]. Sotsiaalmeediasse, näiteks YouTube'i laaditakse igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadatakse igapäevaselt ühtekokku miljard tundi[4], Twitteris saadetakse päevas 500 miljonit säutsu[5], Facebookis saadetakse 9 miljonit sõnumit tunnis[6].

Suurandmed jagatakse struktureerimata, poolstruktureeritud ja struktureeritud andmeteks, seejuures on põhirõhk struktureerimata andmetel[7].

Omadused[muuda | muuda lähteteksti]

Suurandmeid kirjeldatakse sageli järgmiste põhiomadustega (sulgudes on toodud algsed ingliskeelsed vasted)[8]:

  • maht (volume),
  • kiirus (velocity),
  • sort (variety),
  • varieeruvus (variability),
  • õigsus (veracity),
  • kehtivus (validity),
  • haavatavus (vulnerability),
  • volatiilsus (volatility),
  • visualiseeritus (visualisation),
  • väärtus (value).

Suurandmete omadused ning nende arv varieerub allikati suuresti, kuid alati on ingliskeelsed omadused algustähega v[9].

Rakendamine[muuda | muuda lähteteksti]

Suurandmed, kui on eristatud sordi alusel, omavad teatud tüüpi mustreid ning on töödeldavad masinõppimise abil. Peaasjalikult kasutatakse seni kogutud andmeid prognoositavaks analüüsiks, kasutaja käitumise analüüsiks või rakendatakse muid teatud tüüpi keerulisemaid analüüsimeetodeid, et andmetest olulist väärtuslikku infot koguda [puudub viide]. Analüüsi tulemuslikkuse tagamiseks tuleb koguda õigeid andmeid õiges mahus.

Suurandmete kogumist ja analüüsi kasutatakse mh järgnevates valdkondades:

  • avalik sektor ja valitsus,
  • rahvusvaheline koostöö ja arendustegevus,
  • tootmine,
  • tervishoid,
  • haridus,
  • meedia,
  • nutistu,
  • infotehnoloogia.

Kriitika[muuda | muuda lähteteksti]

Suurandmete analüüsis tuleb eristada kvantitatiivset ja kvalitatiivset lähenemist. Alati ei taga suurem andmete kogus täpsemaid või paremini analüüsitavaid tulemusi, kui analüüsiks kasutatavatest lähteandmetest ei eemaldata ebaolulisi või vale sisuga andmeid. Andmete analüüsiks sageli kasutatav automatiseeritud uurimismeetod võib toota väära tulemuse, kui meetodi koostaja on jätnud arvestamata andmemassiivis esineda võivate eripäradega, mis võivad oluliselt mõjutada tulemuse täpsust. Automatiseeritud meetodi puhul on oht, et mudeli loomise hetkel võis see olla täpne ja toimiv, kuid hilisema andmekaeve käigus võidakse laiendada kogutavate andmete hulka, millega mudel ei oska arvestada ning analüüs ei taga enam korrektset tulemust.[10]

Viited[muuda | muuda lähteteksti]

  1. Hilbert, M., López, P.. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Lk 60–65. 
  2. "In-Network Computing and Next Generation HDR 200G InfiniBand". 23.10.2017. Kasutatud 20.03.2018.
  3. "Internet World Stats". 31.12.2017. Kasutatud 20.03.2018.
  4. "YouTube by the Numbers: Stats, Demographics & Fun Facts". 05.02.2018. Kasutatud 20.03.2018.
  5. Salman Aslam. "Twitter by the Numbers: Stats, Demographics & Fun Facts". Omnicore, 01.01.2018. Kasutatud 20.03.2018.
  6. Salman Aslam. "Facebook by the Numbers: Stats, Demographics & Fun Facts". Omnicore, 01.01.2018. Kasutatud 20.03.2018.
  7. Dedić, N.; Stanier, C.. (2017). Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery. Kd. 285. Berlin; Heidelberg: Springer International Publishing. 
  8. George Firican. "The 10 Vs of Big Data". 08.02.2017. Kasutatud 20.03.2018.
  9. Tom Shafer. "The 42 V's of Big Data and Data Science". 01.04.2017. Kasutatud 20.03.2018.
  10. Boyd D., Crawford K.. "Six Provocations for Big Data". A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2011, pp 4–8