Andmekaeve

Andmekaeve^[1] ehk andmekaevandamine^[2] (inglise keeles data mining) on automaatne protsess kasulike mustrite paljastamiseks suurtest andmehulkadest. Andmekaeve on võrdlemisi noor uurimisvaldkond ning selle abil püütakse leida andmeid, mis jäävad oma struktuuri või mahu tõttu traditsioonilistele meetodile varjatuks.

Andmekaeve hõlmab väga erinevaid teadusharusid ja metoodikaid. Neist olulisemad on tehisintellekt (masinõpe, hägusloogika), statistika (sämplimine, hüpoteesi testimine) ja informaatika (otsimis- ja sorteerimisalgoritmid, andmebaasisüsteemid).

Definitsioonid[muuda | muuda lähteteksti]

Mõiste "andmekaeve" kohta on mitmeid tunnustatud definitsioone:

Andmekaeve on üks etapp teadmushõivest, mille eesmärgiks on automaatselt pöörata toorandmed kasulikeks teadmisteks.^[3]
Andmekaeve on mahukate andmete analüüs, leidmaks uusi seaduspärasusi ja ootamatuid seoseid, ning summeerimaks andmeid sellisel uudsel viisil, et need oleksid samaaegselt arusaadavad ja kasulikud.^[4]

Ajalugu[muuda | muuda lähteteksti]

Andmekaevandus sai alguse 1980ndate lõpus, kui kanda olid kinnitanud relatsioonilised andmebaasid ning tutvustati esimesi andmekaeve paradigmasid.

Suurem läbimurre toimus alles 1990ndate keskel ning sestpeale võib andmekaevet vaadelda kui infotöötluse loomuliku arengusammu, mis järgnes arvutustehnika võimsuse kasvule ja andmetalletamise odavnemisele, sest olemasolev infohulk ei suutnud rahuldada kasvavat teadmistenälga, mida tol ajal süvendas interneti buum (dot.com).

Eesmärgid[muuda | muuda lähteteksti]

Andmekaeve täiendab olulisel määral traditsioonilist andmeanalüüsi meetodit, pakkudes lahendusvõimalusi järgnevaile andmeanalüüsi probleemidele :

Andmemahud – andmekaeve on skaleeritav erinevatele andmehulkadele, mistõttu suudab paralleelselt käidelda nii ülimahukaid kui ka väiksemahulisi andmeid, mis on sobivad klassikalise andmeanalüüsi meetoditele.
Suuremahulised andmed – andmekaeve suudab hakkama saada andmetega, mis võivad sisaldada tuhandeid atribuute; näitena võib välja tuua geenide mikromassiivid ja asukohapõhiste andmete kaevandamise;
Keerukad ja heterogeensed andmehulgad – traditsioonilised andmeanalüüsi meetodid saavad hakkama vaid sama tüüpi numbriliste suurustega, mis võivad olla kas pidevad või kategoorilised suurused; andmekaeve suudab toime tulla keerukamate andmetega, mis võivad lisaks numbrilistele suurustele sisaldada tekstiväärtusi, ning on kohandatav andmetele, mis võivad olla hierharhilised või seostega lingitud.
Andmete kuuluvus ja haldus – andmeanalüüsiks olulised andmestikud ei asu tihti ühes kohas ning on pärit mitme organisatsioonid andmelaost, mistõttu on oluline, et suudetaks vahetatavate andmete mahtu vähendada ning oleks võimalik turvaline hajusarvutamine; andmekaevandus võimaldab vähendada andmete töötlemisel kaasnevaid isikuandmete ja eetika probleeme.
Hüpoteesi püstitamine – traditsioonilised statistilised meetodid põhinevad põhimõttel "püstita hüpotees ja kontrolli", mis seisneb selles, et püstitati hüpotees ning hakati eksperimendile sobilikke andmeid koguma, mida saaks vastavalt hüpoteesile analüüsida. See protsess on väga töömahukas ning raskesti automatiseeritav, sest nõuab pidevat inimesepoolset juhtimist.

Teadmushõive ja andmekaeve[muuda | muuda lähteteksti]

Traditsiooniliselt loetakse andmekaevandust teadmushõive üheks protsessiks.^[3] ^[5]

Jiawei Han on oma raamatus "Data Mining – Concepts and Techniques" toonud andmekaeve nimetuse teadmushõivega samavääristamine põhjenduseks, et kolmandad osapooled (turundajad, andmebaasisüsteemide loojad) on võtnud ühe teadmushõive protsessi etapi ning üldistanud selle kogu protsessile.

Fayyad toob oma teoses ^[6] välja selgemini mõistetava põhjenduse – andmekaeve on teadmushõive tuum-etapp, teised teadmushõive etapid täidavad vaid toetavat rolli, seetõttu on loomulik andmekaeve mõiste ülekandumine teadmushõivele.

Teadmushõive protsessid

Andmete eeltöötlemine
1. Andmete puhastamine – müra eemaldamine ja andmete ühtlustamine
2. Andmete kombineerimine – erinevate andmeallikate koondamine
3. Andmete alamosadeks jaotamine – edasiseks analüüsiks vajalike andmete hankimine ja valimine
4. Andmete transformeerimine ja normeerimine – muutujate koondamine üheks, pidevate suuruste diskreetimine, sh ka binaarsete suuruste tekitamine
Teadmiste hankimine
1. Andmete kaevandamine – sobivate mudelite valik
Järelanalüüs
1. Tulemuste hindamine – testandmete rakendamine; Hinnatakse leitud mustri huviväärsust, selleks peab leitud tulemus olema hõlpsalt tõlgendatav, püsiv (või hinnatava muutlikkusega), kasulik ja informatiivne.
2. Teadmiste rakendamine – tulemuste rakendamine ülesannetes või info lisamine eskertsüsteemidesse.

Teadmushõive süsteemi põhimõtteline skeem ^[5]

Andmeallikas : Andmebaasisüsteem, andmeladu, veeb – andmete puhastamine ja koondamine
Andmebaasi server, andmelao klastrid – andmete kitsendamine ja ettevalmistamine
Teadmistebaas – andmekaeve eksperimendis uuritavate jaoks vajalike üldteadmiste kogum
Andmekaevanduse "mootor" – andmekaeve algoritmide tarkvaralised moodulid
Tulemuste hindamise süsteem – testandmete rakendamine ja tulemuste hindamine.
Kasutajaliides – tulemuste kuvamine ja tegevuste seire

CRISP-DM protsessimudel[muuda | muuda lähteteksti]

Juhtivate andmeanalüüsi ettevõtete loodud standard, mille eesmärk on kaitsta ärihuve ja ühtlustada andmekaeve protseduure, et protseduurid suudaksid tagada valdkonna ja vahendite sõltumatuse.

Protsesside lühiülevaade

Valdkonnaga tutvumine -äriliste eesmärkide kinnitamine, alusteadmiste kogumine ja nendega tutvumine.
Andmete mõistmine – andmete kogumine, struktuuri ja andmete kvaliteediga tutvumine.
Andmete ettevalmistamine – suuruste tranformeerimine ja kohandamine algoritmidele sobivale kujule.
Andmekaevandamine – sobivate tehnikate valimine ja rakendamine ettevalmistatud andmetel
Tulemuste hindamine – hinnatakse tulemuste vastavust punktis 1 kokkulepitud äriliste eesmärkidega.
Juurutamine – uute ja kasulike teadmiste integreerimine otsussüsteemidesse või lisamine teadmusbaasi.

Töömahu hinnanguline kulu protsesside kaupa

Protsess	Ajakulu (%)	Alamprotsessid	Äripool	Analüütik	IT
Valdkonnaga tutvumine	5–10	Eesmärkide püstitamine, edukuse määratlemine	X
Andmete mõistmine	10–15	algandmete kogumine, andmete uurimine, kvaliteedi esmahinnang	X	X
Andmete ettevalmistamine	30–60	andmete valimine, puhastamine, kohandamine		X	X
Modelleerimine	20–30	Tehnikate ja tööriistade valimine, mudelite koostamine		X
Tulemuste hindamine	20–30	Kasulikuma mudeli valimine, mudeli tulemuste selgitamine	X	X
Rakendamine	5–10	Teadmiste rakendamine, monitoorimine ja hooldus	X	X	X

Andmekaevetehnikad[muuda | muuda lähteteksti]

Jagunevad üldiselt kahte kategooriasse:

Prognoosiv analüüs (inglise Predictive Analysis, vene Предсказательная аналитика) – eesmärk on hetkel olemasolevate andmete põhjal tuleviku või tundmatute väärtuste hindamine.
- üks näiteid on regressioon, mis sarnaneb klassifitseerimisega, kuid mille väljund on pidev reaalarvuline suurus.
- (nt: lineaarne regressioon, ... )
Kirjeldav analüüs – ülesanne on kirjeldada andmete omadusi
- võivad jaguneda veel juhitud/juhtimata
- Klassifitseerimine – kindlasti juhtimisega tegevus – ajaloo/näite olemasolu on oluline
  - (otsustuspuud, tehisnärvivõrgud , ...)
- Klasterdamine – juhendamiseta õppimine, juhindutakse vaid andmete laadi järgi, rühmitatakse põhimõttel "suurendada rühmadevahelist sarnasust ning suurendada rühmadevahelist erinevust."
  - (SOM, ... )
- Seoste, mustrite analüüs – ostukorvi analüüs, põhjuslik-tagajärg jne.
- Anomaaliate analüüs – teistest juhtumitest erinevate suuruste väljatoomine, täiendab statistilisi meetodeid, mis hindavad erijuhtumeid hälbe või tõenäosusega
- Evolutsiooni analüüs – eesmärk on uurida trendide muutumist
- Visualiseerimine – (graafiline kaevandamine (inglise visual mining)) – mõnikord väga kasulik tehnika, sest sageli on inimese mustrite genereerimisvõime on märksa suurem kui programmil, sobiv tehnika tulemuste vahevalideerimiseks

Ekslikud tõlgendused[muuda | muuda lähteteksti]

Ajakirjanduses võib kohata andmekaevanduse vääriti tõlgendamist ja mõiste liigset laiendamist, mille tulemusena on täiesti omaette tehnoloogiamõisted koondatud andmekaeve alla. Mõistete segiajamine on valdavalt tingitud andmekaeve noorusest, paljud mõisted pole kinnistunud ja tehnoloogiamõistete hulk suureneb väga kiiresti.

Otsingumootorid, andmekogud – otsingu algoritmid võivad olla keerulised ja töötada suurte andmehulkadega, kuid tulemuste kuvamisel ei rakendata andmekaevanduse metoodikaid. Segiajamine on tingitud sellest, et otsingumootorid kasutavad teadmiste hankimisel andmekaeve algoritme, kuid ei tee seda otsingutulemuste kuvamisel.
OLAP – andmelaonduse vaatevinklist võib andmekaeve paista kui täiustatud OLAP. Kuid OLAP seisneb vaid suurte andmekuupide koondamisel ja lõikamisel ning on info esitusviisilt deduktiivne (üldistav), samas on andmekaeve oma olemuselt induktiivne. Segiajajad on samuti ära unustanud, et OLAP pole automaatne, vaid teadmise hankimisel on vaja inimesepoolset juhendamist.
Masinõppe süsteem – kui kasutatakse inimese intellekti jäljendamisel, aga mitte informatsiooni paljastamisel andmehulkadest (pole pelgalt ML).
Statistilise analüüsi süsteem – graafilised kellad-viled petavad ära ning segiajajad on jällegi ära unustanud, et andmekaeve on automaatne protsess.

Statistika ja andmekaevandus[muuda | muuda lähteteksti]

Andmekaeve algusperioodil põhjustas uus andmetöötluse metoodika tuliseid vaidlusi ja sagedast mõistete segiajamist. Traditsiooniliste statistikute jaoks oli andmekaeve mõiste segane ja nad pidasid seda pelgalt äriliste ettevõtmiste uueks turundustrikiks ning hiljem, kui andmekaeve oli saavutanud arvestatava kõlapinna, hakkasid mitmed juhtivad statistikud andmekaevanduse mõistet suruma statistika alla.^[7]^[8]

Tänapäeval on mõiste "andmekaeve" paika loksunud ning Fayyadi raamatus^[6] on esitatud selged piirid statistika ja andmekaeve vahel: "Statistikat defineeritakse kui meetodit andmete kogumiseks, esitlemiseks, kokkuvõtmiseks, hüpoteeside testimiseks ning järelduste tegemiseks, kasutades induktiivseid ja deduktiivseid arutluskäike. Andmekaevanduse eesmärgiks on eelkõige olemasolevatest andmetest huvitavate struktuuride määratlemine ning andmete vaheliste seoste ja mustrite leidmine, kasutades induktiivseid ja tehisintellekti tehnikaid. "

Väike erisuste loend

Eesmärk on sama
Metoodikad on erinevad
Statistika formaliseerib hüpoteesi enne andmete analüüsi
Statistika võimaldab testida üht hüpoteesi korraga.
Andmekaeve ülesande lahendamine ei eelda hüpoteesi püstitamist
Töödeldavad infomahud erinevad kordades
Andmekaevel on parem erijuhtumite ja müra tundlikkus
Statistika tegeleb vaid numbriliste suurustega
Andmekaeve võimaldab teha reaalajalisi analüüse

Rakendusvaldkonnad[muuda | muuda lähteteksti]

Finants, kindlustus[muuda | muuda lähteteksti]

Kliendi maksejõu hindamine
Kliendi riskirühma määramine
Maksevõrgustiku analüüs
Krediitkaardi pettused
Rahapesu analüüs

Bioinformaatika[muuda | muuda lähteteksti]

DNA mikromassiivide klasterdamine

Kaupmehed[muuda | muuda lähteteksti]

Ostukorvi analüüs
Otseturundamine
Ristmüük
Järelmüük
Poe kaubalettide asetus

Telekommunikatsioon[muuda | muuda lähteteksti]

Klientide mikrosegmenteerimine
Kaugkõnede pettuste analüüs
Klientide lahkumise (lepingu lõpetamine, kõnekaardi mittekasutamine) tõenäosuste prognoosimine
Peale- ja ristmüügi võimaluste (tõenäosuste) prognoosimine

Isikuandmete kaitse[muuda | muuda lähteteksti]

Privaatsuspoliitika ja paranoiline (paraku mitte alati alusetu) hoiak erinevate eraeluliste andmete kogumisel tekitab sageli avalikke diskussioone erinevate andmete analüüsimise eetika kohta, seda ka Eestis.^[9]

Reaalajaliste andmete töötlemise tundlikkuse ja kasulikkuse vahel tuleb teha kompromiss, sest saadud kasu on tavaliselt suurem. Näiteks nutitelefonide asukoha kaevandamine võimaldab paremini juhtida liiklust ning vähendada ummikuid. Samas küüniline allikate hägustamine ei pruugi veel tagada isikuandmete varjamist, sest mõnikord on võimalik mitme allika koondamisel tundlikud andmed taastada.^[10]

Tarkvara[muuda | muuda lähteteksti]

Statistika keskkond R ja moodul Rattle
Matlab moodul Spyder
Weka, RapidMiner,
Programmeerimiskeelte laiendid: Python, Java

Organisatsioonid[muuda | muuda lähteteksti]

Eestis
- BIIT
Rahvusvahelised
- ACM KDD
- IEEE CIS
- PASCAL

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

↑ EMS
↑ E-teatmik
↑ ^3,0 ^3,1 VIpin Kumar, Pang-Ning Tan, Micheal Steinbach , "Introduction to Data Mining", USA, Pearson, 2006
↑ David J. Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", USA, MIT Press, 2001
↑ ^5,0 ^5,1 Jiawei Han, Micheline Kamber: "Data Mining – Concepts and Techniques", USA, Morgan Kaufmann, 2. trükk, 2005
↑ ^6,0 ^6,1 Usama Fayyad, Georges Grinstein, Andreas Wierse, "Information Visualization in Data Mining and Knowledge Discovery", USA, Morgan Kaufman, 2001
↑ Mannila: "Why do statisticians "hate" us?"
↑ Jerome Friedman: "Data Mining and Statistics: What's the Connection?"
↑ Innar Liiv, "Andmekaevandamine", A&A 2002
↑ Carnegie Mellon intervjuu Tom. M. Mitchelliga 7. märts 2010

Välislingid[muuda | muuda lähteteksti]

Innar Liiv. "Andmekaevandamine" A&A, 2002
Statistiline andmekaeve, õppematerjalid
CRISP-DM ametlik koduleht (arhiivitud)
Andmekaeve statistika vaatenurgast
David J. Hand. "Andmekaeve ja statistika ühisjooned"
Andmekaeve ja CRM

[fhQh0-1] EMS

[X2eoi-2] E-teatmik

[VKumar-3] 3,0 ^3,1 VIpin Kumar, Pang-Ning Tan, Micheal Steinbach , "Introduction to Data Mining", USA, Pearson, 2006

[Mannila-4] David J. Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", USA, MIT Press, 2001

[Han-5] 5,0 ^5,1 Jiawei Han, Micheline Kamber: "Data Mining – Concepts and Techniques", USA, Morgan Kaufmann, 2. trükk, 2005

[Fayyad-6] 6,0 ^6,1 Usama Fayyad, Georges Grinstein, Andreas Wierse, "Information Visualization in Data Mining and Knowledge Discovery", USA, Morgan Kaufman, 2001

[MannilaPdf-7] Mannila: "Why do statisticians "hate" us?"

[Friedman-8] Jerome Friedman: "Data Mining and Statistics: What's the Connection?"

[ILiiv-9] Innar Liiv, "Andmekaevandamine", A&A 2002

[TMitchell-10] Carnegie Mellon intervjuu Tom. M. Mitchelliga 7. märts 2010

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]