Andmed

Allikas: Vikipeedia

Andmed on üldiselt teatud tüüpi informatsioon (tavakeeles on sõna "andmed" tihti "informatsiooni" sünonüüm), kuid mõiste on eri valdkondades kasutusel erisuguse tähendusväljaga.

Põhilised mõiste kasutusvaldkonnad lisaks tavakeelele on järgmised:

Kõige ulatuslikumalt on kasutusel filosoof Luciano Floridi selgitus aastast 2008[1], mis seob ühelt poolt andmed ja informatsiooni ning teiselt poolt mõiste kasutuse sotsiaalteadustes (sh statistikas) ja infotehnoloogias, esitades terminit kui filosoofilist kategooriat. Floridi seletuse kohaselt on terminil "andmed" lai kasutus nii tehnilise terminina kui ka tavakeeles, kuid eristada võib nelja põhiinterpretatsiooni. Need on:

  1. tunnetusteoreetiline ehk epistemioloogiline interpretatsioon, mis on suunatud teadmistele (knowledge-oriented), mille kohaselt on andmed faktid;
  2. informatsioonilise käsitluse kohaselt on andmed informatsioon;
  3. infotehnoloogiliselt (arvutiteaduses) on andmed binaarelemendid (bitid);
  4. diaphooriline, s.o eristav määratlus. Floridi peab seda kõige selgitusjõulisemaks ning selle kohaselt on andmete määratlus rakendatav kolmel eristuval tasandil, mis on:
    1. diaphora de re – selle all peab Floridi silmas andmeid kui midagi, mis on reaalselt olemas, aga see võib olla ka tunnetuseelses seisundis;
    2. diaphora de signo – andmed, mis on kuidagi eristuvad mingi märgina (Floridi näide on nagu + ja – märk patareil)
    3. diaphora de dicto – eristuv tähistus (Floridi näide on nagu tähed A ja B tähestikus)

Mõistet "andmed" kasutatakse sageli terminoloogiliselt täpsustatuna. Näiteks:

  • isikuandmed õiguses, infotehnoloogias jm;
  • aadressiandmed geograafias ja halduses;
  • ilmumisandmed raamatukogunduses;
  • andmebaasid infotehnoloogias või andmekogud õiguses;
  • suurandmed infotehnoloogias ja majanduses
  • jne.

Etümoloogia[muuda | muuda lähteteksti]

Termin "andmed" on eesti keeles kasutusel 20. sajandi algusest ja on neologism. Arvatavasti lõi termini Johan Voldemar Veski ning see on seotud üldise 19. sajandi lõpul ja 20. sajandi algul toimunud matemaatikaterminoloogia korrastamisega. Eestikeelne termin on loodud saksakeelse sõna Angaben ja venekeelse sõna данные eeskujul. Termini loomisel seost ingliskeelse või ladinakeelse terminiga data või datum ei ole.[2] Termin "andmed" on tuletatud vanakreekakeelsest geomeetriaterminist dedomena (δεδομένα), mis tähendas "antud" ja mille võttis kasutusele Eukleides.[3]

Määratlusi[muuda | muuda lähteteksti]

Entsüklopeediates[muuda | muuda lähteteksti]

Eestikeelsetes entsüklopeediates on termin esmakordselt ENE 2-s (1985) ja seda kitsalt ühe eriala – küberneetika – tähenduses.[4]

  • "andmed – küb edastamiseks ja töötlemiseks sobivalt (enamasti arvude ja tekstina) esitatud faktid. A-d salvestatakse mingile *a-mekandjale, a-te omavahelist seost väljendatakse *a-mestruktuuriga"

Sõnaraamatutes[muuda | muuda lähteteksti]

Eesti õigekeelsussõnaraamatus (1976 ja 1980) on järgmine kanne:

  • andja, andma, annan; andmed mitm.; andmeedastus, andmestik; andmik, -miku, -mikku maj. andmete leht (ведомость); andmine, -se.[5]

Standardites[muuda | muuda lähteteksti]

Andmed on määratletud mitmes eesti ja rahvusvahelises standardis.

Infotehnoloogia standardis EVS-ISO/IEC 2382-1:1993 "Infotehnoloogia. Sõnastik" on järgmine määratlus:

  • Informatsiooni (teabe) taastõlgendatav esitus formaliseeritud kujul, mis sobib edastuseks, tõlgenduseks või töötluseks.[6]

Infoteaduse standardis EVS-ISO 5127:2004 "Informatsioon ja dokumentatsioon. Sõnastik" (lähtub standardi EVS-ISO 1087-2:2002 "Terminoloogiatöö. Sõnastik. Osa 1: Teooria ja rakendus" määratlusest) on järgmine määratlus:

  • informatsiooni esitus formaliseeritud kujul, mis sobib kommunikatsiooniks, tõlgenduseks ja töötluseks.

Tähendus[muuda | muuda lähteteksti]

Mõiste "andmed" on infohalduses seotud mõistetega "informatsioon", "teadmus" ja "tarkus". Sellist seost nimetatakse tarkuse püramiidiks (DIKW). Selles on andmed nagu toormaterjal, millest tunnetuse ja kasutamise kaudu on võimalik teadmistepõhine, ratsionaalne, eesmärgipärane käitumine. Rangelt võttes ongi andmed iseenesest tähenduseta ning andmete tähendus ilmneb ainult nende tõlgendamisel informatsioonina (teabena).

Teisalt on oluline tähele panna, et andmeid ja informatsiooni kasutatakse eriti tavakeeles sünonüümidena. Ranget vahet ei tehta neil aga ka ei avalikus halduses, äris ega teaduses. Eesti ja Euroopa Liidu õigusaktides kasutatakse terminit "andmed" rangelt võttes tähenduses informatsioon, kuid praktiliselt võib õigusaktides (näiteks isikuandmete kaitse seaduses või andmekogude põhimäärustes) pidada andmeid ja informatsiooni sünonüümideks.

Mõiste "andmed" mõeldakse tänapäeval üldiselt digitaalseid andmeid, mis on n-ö arvutites, kuid see arusaam on kitsendav. Andmeid "sisaldab" nii füüsiline kui ka bioloogiline aines (samuti energia). Varasemal ajal oli palju tehniliselt loodud andmeid salvestatud analoogkujule. Infotehnoloogiliste vahenditega on informatsioon kiiresti muudetav andmeteks ja vastupidi.

Andmeid koguvad ja edastavad tänapäeval sageli masinad ja seadmed.

Kasutamine eri valdkondades[muuda | muuda lähteteksti]

Ettevõtlus[muuda | muuda lähteteksti]

Ettevõtluses on alati andmeid ja andmed on ettevõtte infovara. Olenevalt ettevõtte põhitegevusest hallatakse kõige enam vastava valdkonna andmeid. Tootmisettevõtetel on olulisel kohal tarneahela (sh klientide) ja tootmise andmed, millest osa käsitletakse kui põhiandmeid (master data). Andmemahukates ettevõtetes on äriliselt väga oluline kasutusel olevate andmete andmekvaliteet. Teenusettevõttel on põhiliseks kliendiandmed. Ettevõtted kasutavad andmeid turunduseks ning teevad andmete põhjal ärianalüüsi (Business intelligence) teenuste ja toodetega äri tegemiseks.

Tugifunktsioonide täitmiseks on ettevõtetel juhtimisandmed, personaliandmed, raamatupidamise andmed (finantsjuhtimise andmed), haldusandmed (inventuur, varahaldus) ning andmed dokumentatsiooni ja muude infovarade kohta, tavaliselt metaandmete kujul.

Ettevõtete andmehalduse jaoks kasutatakse mitmesuguseid äriinfosüsteeme. Paremaks äriinfo kasutamiseks loovad ettevõtted andmeladusid.

Teadus[muuda | muuda lähteteksti]

Teaduses on sõltuvalt teadusharust väga erinevat laadi andmeid. Üldiselt saab eristada vaatlusandmeid, eksperimentide andmeid ja analüüsi andmeid. Enamus andmeid töödeldakse teaduses matemaatiliste (statistiliste) meetoditega.

Tänapäeval toimub arutelu selle üle, kas teadusandmed, mis on loodud avalikke ressursse kasutades, peaks olema avaandmed (Open data) ja kõigile kättesaadavad või on nendele juurdepääsu piiramine põhjendatud.[7] Eri huvirühmade nägemus sellest on erinev. Eriti meditsiiniuuringutes on andmeid, mida nimetatakse delikaatseteks isikuandmeteks ja millele juurdepääs piiratud.

Avalik haldus[muuda | muuda lähteteksti]

Avalikus halduses asendavad tänapäeval digitaalsed andmed paljudel juhtudel paberdokumente ja andmeid hallatakse andmebaasides, mida õiguslikult nimetatakse andmekogudeks.[8] Eestis nimetatakse selliseid andmekogusid sageli riiklikeks registriteks.[9] Avalik haldus kogub, töötleb ja hoiab andmeid kõigis oma funktsioonides. Andmekogudest ülevaate saamiseks on loodud Riigi Infosüsteemi Haldussüsteem (RIHA). Avalik sektor peab olema teinud oma juurdepääsupiiranguta andmed avaandmetena kättesaadavaks hiljemalt 2016. aasta 1. veebruariks ning need peavad olema ligipääsetavad riigi avaandmete teabevärava kaudu.[10][11] Eestis on isikud kui andmesubjektid on nende isikustatud andmete avaliku kasutamise eest kaitstud ning avalikuks tehakse andmekogudena anonüümistatud andmed. Avaliku sektori andmetel on väärtus ning nende elukäik (loomisest või saamisest hävitamise või avalikku arhiivi andmiseni) peab olema kontrolli all. Riigid ja mitmed avaliku sektori asutused (ülikoolid, meediaorganisatsioonid, haiglad) on loonud andmete pikaajaliseks säilitamiseks andmearhiivid.

Statistika[muuda | muuda lähteteksti]

Statistikas on siin eraldi välja toodud kui oluline teaduse ja avaliku halduse andmetega tegelev valdkond. Valdkonnas on kasutusel mõiste "statistilised andmed". Termin "andmed" on kasutusel Eesti vabariigi statistika algusest.[12]

Traditsiooniliselt eristatakse statistikas küsitlusandmeid, loendusandmeid ja sündmusstatistilisi andmeid. Statistikas tehakse vahet algandmete ja töödeldud andmete vahel. Töötluseks kasutatakse statistilise analüüsi eri meetodeid ning andmeid esitatakse tabelite, graafikute, indeksnäitajate jms kujul. Vahet tehakse samuti individuaalandmete ja agregeeritud andmete vahel.

Infotehnoloogia[muuda | muuda lähteteksti]

Infotehnoloogias on andmetel põhiliselt kaks tähendust. Esiteks tehniline tähendus, kui andmed on binaar- või muul kujul nende edastamiseks, tõlgendamiseks või töötlemiseks ja seda teeb masin (arvuti, tehnosüsteem jms). Need andmed ei ole üldjuhul inimloetavad ja neid nimetatakse masinloetavateks andmeteks. Teiseks informaatika või informatsioonilises tähenduses, kus andmed on kujul tunnus-väärtus (attribute-value) või objekt-seos-subjekt ehk objekt-tunnus-väärus (object–attribute–value) ning siis on andmete semantika arusaadav ka inimesele.

Andmed on kas edastuses (näiteks telefonikõne) või andmekandjal. Andmekandjatel on andmed üldiselt salvestatud failisüsteemi failina. Üheks faili tüübiks on andmebaasi fail. Kõige levinumaks andmebaasi tüübiks on relatsiooniline andmebaas, kus andmed on tabelites, mille vahele on loodud seosed.

Andmebaasides olevaid andmeid nimetatakse struktureeritud andmeteks, mis tähendab seda, et nende andmete tähendus on küllalt hästi teada (tabeli veergude tunnused on kirjeldatud ja seetõttu ridade väärtuste tähendus teada). Selliseid struktureeritud andmeid on kõigist andmetest 10% ja 90% on mittestruktureeritud andmed, mis on väga erinevat tüüpi failides teksti, jooniste, piltide, heli, video jne kujul.

Infotehnoloogia mõõdab andmemahtu. Andmemahtu mõõdetakse bittides ja baitides, mis on täpsemalt öeldes informatsiooni mõõtühikud. Andmemaht ja infohulk on selles tähenduses sünonüümid.

Infotehnoloogias on järjest enam kasutusel mõiste "suurandmed" (big data), milleks nimetatakse suurt hulka andmeid, mille tüübid on varieeruvad, mis on muutuses ning mille tunnused ja kvaliteet on mitmekesine, aga mida soovitakse analüüsida, et saada soovitud teavet.

Andmete kohta on infotehnoloogias palju seotud termineid ja mõisteid, näiteks:

Infohalduses[muuda | muuda lähteteksti]

Infohalduse vaates on põhiliseks tegelemine metaandmetega. Metaandmed on andmed andmete kohta. Eristada võib inforessursi kirjeldamise, leidmise, haldamise ja tehnilisi metaandmeid. Osadel valdkondadel on välja kujunenud metaandmestandardid, millega selles valdkonnas inforessursse kirjeldatakse. Metaandmed on olulised andmete semantika mõistmisel.

Raamatukogud, muuseumid, arhiivid jt mäluasutuses haldavad oma kogusid metaandmetega. Samuti hallatakse metaandmetega dokumente asutustes ja ettevõtetes.

Meedia ja kommunikatsioon[muuda | muuda lähteteksti]

Meedia tooted ja teenused ning kommunikatsiooni sõnumid on digitaaltehnoloogiale ülemineku järel tehniliselt andmete kujul. Nendele andmetele kui loomingule ja meediatoodetele (teostele) rakenduvad autoriõigused. (Autoriõigused võivad rakenduda ka muudele andmetele.)

Isiklik info, sotsiaalmeedia ja massikommunikatsioon ning nendes olevad andmed on järjest enam läbi põimunud. Isikuandmete kasutamist ja kaitset nii meedias kui äris ning meedias ja äris reguleeritakse seadusega.[13]

Olulisel kohal on selles valdkonnas küsimus, kes on andmete omanik (isik või sotsiaalmeediat omav ettevõte) ning millised on meediaettevõtete andmete teisesed kasutusõigused.

Ajakirjanduses on kujunenud eraldi suund andmeajakirjandus.[viide?]

Geograafia ja ruumiandmed[muuda | muuda lähteteksti]

Geograafiliste andmetena mõistetakse tavaliselt andmeid, mis on seotud mingi konkreetse geograafilise ruumi osaga. Andmete sidumist ruumiga nimetatakse geokodeerimiseks. Need andmed võivad olla nii eluslooduse kui eluta looduse kohta kui ka inim- ja majandusgeograafia andmed. Sellised on ka haldusüksuste ja aadressiandmed.

Geograafilisi, sealhulgas ruumiandmeid, töötlevaid infosüsteeme nimetatakse geoinfosüsteemideks (GIS).

Keskkonnaandmed[muuda | muuda lähteteksti]

Keskkonnaandmed on mitmesugused geograafia, bioloogia, ökoloogia, geoloogia jms seire- ja vaatlusandmed ning nende põhjal tehtud analüüsi andmed. Selle rühma alla kuuluvad ka meteoroloogia, klimatoloogia, jäätmete, kiirguse, looduskaitselised, maa kasutuse ja keskkonnakorralduslikud andmed.

Bioloogiaandmed[muuda | muuda lähteteksti]

Lisaks keskkonnaalastele bioloogilistele andmetele on järjest olulisemad biokeemilised ja geneetilised andmed nagu DNA.

Välja on kujunenud eraldi teadusvaldkond bioinformaatika.

Meditsiiniandmed[muuda | muuda lähteteksti]

Meditsiiniandmed on üks suuremaid andmete valdkondi ning nende andmete kasutus on piiratud ja neid tuleb nende väärtuse tõttu säilitada pikka aega. Traditsiooniliselt koguti meditsiiniandmed haiguslugudesse, mis olid väikesed raamatukesed. Nüüdisajal on haiglatel ja arstidel kasutusel infosüsteemid, milles on nii haiguslugu, epikriisid, kui ka uuringute tulemused (sh pildid) digitaalsel kujul.

Meditsiiniandmed on samuti andmed ravimite kohta ja digiretsepti andmed, mis on üheks näiteks, kuidas paberdokumentidelt on mindud üle andmepõhisele dokumenteerimisele.

Tehnilised seadmed[muuda | muuda lähteteksti]

Tänapäevased tehnojuhtimissüsteemid (hajusjuhtimissüsteemid – DCS, superviisorsüsteemid – SCADA, protsessijuhtimissüsteemid) loovad, edastavad ja haldavad andmeid, mis on olulised nii äris kui ka avalike teenustena sh eluliste teenustena masinates, seadmetes ja tehnovõrkudes.

Tehniliste seadmete ühendamist võrku ja selle kaudu andmete töötlemist nimetatakse asjade internetiks ehk nutistuks.

Andmete tüübid[muuda | muuda lähteteksti]

Andmetüübid matemaatilis-statistilises vaates on

  • mittenumbrilised (kvalitatiivsed) andmed
    • mittekategoriseeritud
    • kategoriseeritud (nominaalsed)
  • numbrilised (kvantitatiivsed) andmed
    • ordinaalsed
    • kardinaalsed
      • intervall
      • suhe

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

  1. Floridi, L (2008) Data. In W A Darity, Jr (Ed ), International encyclopedia of the social sciences (2nd ed) , vol 2, pp 234–237.
  2. L. Kettunen "Eesti-soome sõnaraamat" (1917), milles termin on sees uudissõna märgendiga.
  3. Eukleides. Δεδομένα. Esimene definitsioon.
  4. ENE 1 kd Tln, 1985. lk 223. 1930. aastate ega nõukogudeaegses 1 ENEs terminit andmed pole.
  5. ÕSi spetsiifilised märgid on eemaldatud
  6. vt ka Andmekaitse ja infoturbe sõnastik – data
    "ISO/IEC 2382, ISO/IEC 25000 teabe taastõlgendatav (ISMS kontekstis: eeskätt elektrooniline digitaalne) esitus formaliseeritud kujul, mis sobib edastuseks, tôlgenduseks vôi töötluseks; andmetel iseenesest ei ole mingit tähendust, teabe saamiseks tuleb andmeid tõlgendada kontekstis, nii et nad saaksid tähenduse"
  7. What is Open Data?
  8. Avaliku teabe seadus Ptk 5.1 Andmekogud
  9. Õiguslik regulatsioon andmekogude nimetamiseks riiklikeks registriteks seadustati 1990. Eesti NSV riiklike registrite seadus. (09.02.1990) ÜVT 1990, 3, 61.
  10. Avaliku teabe seadus § 3¹, 8, 28, 29, 58²
  11. "Avaandmete portaal". Originaali arhiivikoopia seisuga 13. juuni 2017. Vaadatud 22. märtsil 2017.
  12. 1922. aasta rahvaloenduse korraldamise dokumentides terminit "andmed" ei kasutata, vaid on mõiste "materjalid". Läbitöötamise juhistes ja publikatsioonides kasutatakse terminit "andmed".
  13. Euroopa Parlamendi ja nõukogu määrus (EL) 2016/679, 27. aprill 2016, füüsiliste isikute kaitse kohta isikuandmete töötlemisel ja selliste andmete vaba liikumise ning direktiivi 95/46/EÜ kehtetuks tunnistamise kohta (isikuandmete kaitse üldmäärus) Brüssel, 27. aprill 2016