Andmete eeltöötlemine

Suurandmete analüüs ehk väga suurte andmekogumite suundumuste ja mustrite tuvastamine on saamas tavapäraseks tegevuseks. Ettevõtted otsivad alati võimalusi, kuidas vähendada kulusid, suurendada tulusid ja saada teiste ees konkurentsieeliseid. Andmete kogumine ja kasutamine on praegu üks olulisemaid viise nende eesmärkide saavutamiseks ning ettevõtted otsivad üha rohkem viise, kuidas muuta andmeid väärtuseks. ^[1]

Enne andmete analüüsimist tuleb need korrastada sobivasse vormi. Andmete ettevalmistamine ja eeltöötlemine on andmete eeltöötlus ja korrastamine enne analüüsi. Andmete ettevalmistamine on tavaliselt iteratiivne protsess, mille käigus töödeldakse töötlemata andmeid struktureeritumaks vormiks, mis on sobilikud edasiseks töötlemiseks ja analüüsiks.

Kogu ettevalmistusprotsess koosneb mitmest peamisest tegevusest (või ülesandest), sealhulgas andmete profileerimine, puhastamine, integreerimine ja teisendamine.^[2] Mõnede hinnangute kohaselt võtavad sellised eeltöötlusülesanded kuni 50–80% kaevandamisprotsessile kuluvast ajast ja jõupingutustest. See aeg ja maksumus moodustavad suure osa andmekaevandusega seotud kuludest. Samas ei saa suuda need ettevõtted, kes ei soovi investeerida andmete kaevandamisse, kahjuks enam oma valdkonnas tõhusalt konkureerida.^[3]

Andmete ettevalmistamisel saate koostada andmekogumi ühest või mitmest andmeallikast uurimise, visualiseerimise ja modelleerimise jaoks. Andmete kaevandamine on mitmeid eeliseid; see aitab avastada erinevaid teadmisi ja tuvastada võimalikke andmekvaliteediprobleeme või nõrkusi teie andmekogumis.

Andmete eeltöötlemise käigus parandatakse näiteks teatud kirjavead, vigased lühendid, vigased kirjavahemärgid, vormindusvead, valed kuupäevad andmetel jne.

Mõnikord võib see hõlmata ka erimärkide (nt punktide) eemaldamist andmetest, et muuta need masinate (tehisintellekti) poolt loetavaks.

Andmete eeltöötlemine on sageli ajakulukas ja veaohtlik protseduur. Andmetöötluses kehtib ütlus garbage in, garbage out; ehk kui sisendis on arvestatav hulk valesid, ebakorrektseid ja puudulikke andmeid, võib ka väljundandmestik olla madala kvaliteediga ja kasutu.

Selliste andmete analüüsimine, mida ei ole nende vigade ja probleemide suhtes põhjalikult kontrollitud, võib viia ebatäpsete järeldusteni ja tulemusteni. Seetõttu sõltub andmeteaduse ja andmekaeve projektide edu suuresti andmete ettevalmistamise kvaliteedist andmete eeltöötlusel.

Andmete eeltöötlemisest saadav kasu[muuda | muuda lähteteksti]

Andmeteadlased kurdavad sageli, et andmete hindamise asemel kulutavad nad suurema osa oma ajast nende hankimisele, eeltöötlemisele ja korrastamisele. Andmete korrektne eeltöötlus on üks olulisemaid tegevusi andmekaeve protsessis.

See võimaldab lõppkasutajatel keskenduda rohkem andmete analüüsile ja mudelite koostamisele.

Põhjaliku eeltöötluse plussid:

Eeltöötlus aitab andmekaeve edasisi etappe, sealhulgas masinõppe mudelitega prognoosimist sujuvamaks muuta.
Analüüsirakendustes kasutatavad andmed annavad suurema usaldusväärsuse pärast eeltöötlust.
Eeltöötlus aitab avastada ja lahendada andmeprobleeme, mis muidu jääksid avastamata.
Eeltöötlus annab infot, mis aitab juhtidel teha äriotsuseid.
Kokkuvõttes annab see väiksemad andmehalduse ja analüütika kulud.
Vähendada dubleerivaid protsesse andmete ettevalmistamisel eri rakendustes kasutamiseks.
Ettevõtte tehtud investeeringud andmeanalüütikasse annavad märkimisväärsemalt suurema tasuvuse. ^[4]

Andmete eeltöötlemise tehnikad ja põhilised etapid[muuda | muuda lähteteksti]

Kuigi iga andmete ettevalmistamise lähenemisviisi tuleks kohandada vastavalt sellele, kuidas see kõige paremini sobib ettevõttele, on olemas mõned levinumad eeltöötluse etapid.

Andmete kogumine. Asjakohased andmed kogutakse operatiivsüsteemidest, andmeladudest ja muudest andmeallikatest. Selle etapi käigus peaksid andmeteadlased, andmespetsialistid, lõppkasutajad, kontrollima, et need sobivad kavandatud analüütiliste rakenduste eesmärkidega.
Andmete avastamine ja profileerimine. Järgmine samm on kogutud andmete uurimine, et valmistada need ette kavandatud kasutusviisideks. Selleks aitab andmete profileerimine tuvastada andmetes olevad mustrid, seosed ja muud omadused, samuti vastuolud, anomaaliad, puuduvad väärtused ja muud probleemid.
Andmete puhastamine. Siin etapis parandatakse tuvastatud andmevead ja probleemid, et luua täpsed andmekogumid. Näiteks eemaldatakse või parandatakse vigased andmed, täidetakse puuduvad väärtused ja ühtlustatakse kirjed.
Andmete struktureerimine. Siinkohal tuleb andmed modelleerida ja viia vastavusse analüütiliste nõuetega. Näiteks tuleb komadega eraldatud väärtuste (CSV) failides või muudes failivormingutes salvestatud andmed teisendada tabeliteks, et need oleksid BI (Business intelligence)- ja analüüsivahenditele loetavad.
Andmete ümberkujundamine ja täiustamine. Lisaks andmete struktureerimisele tuleb need tavaliselt teisendada ühtsesse vormingusse. Näiteks võib andmete ümberkujundamine hõlmata uute väljade või veergude loomist, mis koondavad olemasolevate väärtusi. See etapp optimeerib andmekogumeid vastavalt vajadusele.
Andmete valideerimine ja avaldamine. Viimases etapis käivitatakse automatiseeritud programmid mis kontrollivad andmete järjepidevust, täielikkust ja täpsust. Ettevalmistatud andmed salvestatakse seejärel andmelattu, andmeparki või muusse hoidlasse ja need tehakse kättesaadavaks teistele kasutajatele ja vajalikele osapooltele. ^[5]

Kokkuvõte[muuda | muuda lähteteksti]

Andmete struktuuri tundmine võimaldab enne andmete eeltöötlust teha protsessis muudatusi või koostada täpsem protsessi plaan. Andmete ettevalmistamise tööriistad võimaldavad kasutajatel andmeid enne nende analüüsimist korrastada. See loob tugeva ja usaldusväärse aluse äriotsuste tegemiseks, mis omakorda võimaldab ettevõtetel ja asutustel paremini ja kiiremini toimida ning täita ärieesmärke.

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

↑ Marr, Bernard. "Big Data Facts: How Many Companies Are Really Making Money From Their Data?". Forbes (inglise). Vaadatud 3. jaanuaril 2023.
↑ Abdallah, Z. S., Du, L., & Webb, G. I. (2017). Data Preparation.
↑ Clements, Julie (28. märts 2014). "Data Mining - A Costly Affair | Professional BPO company". www.managedoutsource.com (Ameerika inglise). Vaadatud 3. jaanuaril 2023.
↑ "What is Data Preparation? An In-Depth Guide to Data Prep". Business Analytics (inglise). Vaadatud 4. jaanuaril 2023.
↑ "What is Data Preparation? An In-Depth Guide to Data Prep". Business Analytics (inglise). Vaadatud 3. jaanuaril 2023.

Lisalugemist[muuda | muuda lähteteksti]

Aggarwal, C. C. (2015). Data Mining: The Textbook. Springer.
Attewell, P., Monaghan, D. B, Kwong, D. (2015). Data Mining for the Social Sciences: An Introduction. Oakland, California: University of California
Data Mining and Machine Learning http://www.statgraphics.com/data-mining
Data Mining Tutorial: Process, Techniques, Tools & Examples https://www.guru99.com/data-mining-tutorial.html
Ryszard S. Michalski, George Tecuci (1994), Machine Learning: A Multistrategy Approach, Volume IV, Morgan Kaufmann, ISBN 1-55860-251-8.
Yves Kodratoff, Ryszard S. Michalski (1990), Machine Learning: An Artificial Intelligence Approach, Volume III, Morgan Kaufmann, ISBN 1-55860-119-8.
Virkus, S., Lepik, A., Uverskaja, E., Reimo, T., Metsar, S., Ruusalepp, R., Möldre, A., Laurits, M. (2017). Infoteadused teoorias ja praktikas: Kõrgkooliõpik. Tallinn: Tallinna Ülikooli Kirjastus.

[1] Marr, Bernard. "Big Data Facts: How Many Companies Are Really Making Money From Their Data?". Forbes (inglise). Vaadatud 3. jaanuaril 2023.

[2] Abdallah, Z. S., Du, L., & Webb, G. I. (2017). Data Preparation.

[3] Clements, Julie (28. märts 2014). "Data Mining - A Costly Affair | Professional BPO company". www.managedoutsource.com (Ameerika inglise). Vaadatud 3. jaanuaril 2023.

[4] "What is Data Preparation? An In-Depth Guide to Data Prep". Business Analytics (inglise). Vaadatud 4. jaanuaril 2023.

[5] "What is Data Preparation? An In-Depth Guide to Data Prep". Business Analytics (inglise). Vaadatud 3. jaanuaril 2023.

[1]

[2]

[3]

[4]

[5]