Andmekaeve

Allikas: Vikipeedia
Andmekaeve põhikomponendid

Andmekaeve[1] ehk andmekaevandamine[2] (inglise keeles data mining) on automaatne protsess kasulike mustrite paljastamiseks suurtest andmehulkadest. Andmekaeve on võrdlemisi noor uurimisvaldkond ning selle abil püütakse leida andmeid, mis jäävad oma struktuuri või mahu tõttu traditsioonilistele meetodile varjatuks.

Andmekaeve hõlmab väga erinevaid teadusharusid ja metoodikaid. Neist olulisemad on tehisintellekt (masinõpe, hägusloogika), statistika (sämplimine, hüpoteesi testimine) ja informaatika (otsimis- ja sorteerimisalgoritmid, andmebaasisüsteemid).

Definitsioonid[muuda | redigeeri lähteteksti]

Mõiste "andmekaeve" kohta on mitmeid tunnustatud definitsioone:

  • Andmekaeve on üks etapp teadmushõivest, mille eesmärgiks on automaatselt pöörata toorandmed kasulikeks teadmisteks.[3]
  • Andmekaeve on mahukate andmete analüüs, leidmaks uusi seaduspärasusi ja ootamatuid seoseid, ning summeerimaks andmeid sellisel uudsel viisil, et need oleksid samaaegselt arusaadavad ja kasulikud.[4]

Ajalugu[muuda | redigeeri lähteteksti]

Andmekaevandus sai alguse 1980ndate lõpus, kui kanda olid kinnitanud relatsioonilised andmebaasid ning tutvustati esimesi andmekaeve paradigmasid.

Suurem läbimurre toimus alles 1990ndate keskel ning sestpeale võib andmekaevet vaadelda kui infotöötluse loomuliku arengusammu, mis järgnes arvutustehnika võimsuse kasvule ja andmetalletamise odavnemisele, sest olemasolev infohulk ei suutnud rahuldada kasvavat teadmistenälga, mida tol ajal süvendas interneti buum (dot.com).

Eesmärgid[muuda | redigeeri lähteteksti]

Andmekaeve täiendab olulisel määral traditsioonilist andmeanalüüsi meetodit, pakkudes lahendusvõimalusi järgnevaile andmeanalüüsi probleemidele :

  • andmemahud – andmekaeve on skaleeritav erinevatele andmehulkadele, mistõttu suudab paralleelselt käidelda nii ülimahukaid kui ka väiksemahulisi andmeid, mis on sobivad klassikalise andmeanalüüsi meetoditele.
  • kõrgemõõtmelised andmed – andmekaeve suudab hakkama saada andmetega, mis võivad sisaldada tuhandeid atribuute; näitena võib välja tuua geenide mikromassiivid ja asukohapõhiste andmete kaevandamise;
  • keerukad ja heterogeensed andmehulgad – traditsioonilised andmeanalüüsi meetodid saavad hakkama vaid sama tüüpi numbriliste suurustega, mis võivad olla kas pidevad või kategoorilised suurused; andmekaeve suudab toime tulla keerukamate andmetega, mis võivad lisaks numbrilistele suurustele sisaldada tekstiväärtusi, ning on kohandatav andmetele, mis võivad olla hierharhilised või seostega lingitud.
  • andmete kuuluvus ja haldus – andmeanalüüsiks olulised andmestikud ei asu tihti ühes kohas ning on pärit mitme erineva organisatsioonid andmelaost, mistõttu on oluline, et suudetaks vahetatavate andmete mahtu vähendada ning oleks võimalik turvaline hajusarvutamine; andmekaevandus võimaldab vähendada andmete töötlemisel kaasnevaid isikuandmete ja eetika probleeme.
  • hüpoteesi püstitamine – traditsioonilised statistilised meetodid põhinevad põhimõttel "püstita hüpotees ja kontrolli", mis seisneb selles, et püstitati hüpotees ning hakati eksperimendile sobilikke andmeid koguma, mida saaks vastavalt hüpoteesile analüüsida. See protsess on väga töömahukas ning raskesti automatiseeritav, sest nõuab pidevat inimesepoolset juhtimist.

Teadmushõive ja andmekaeve[muuda | redigeeri lähteteksti]

Traditsiooniliselt loetakse andmekaevandust teadmushõive üheks protsessiks.[3] [5]

Jiawei Han on oma raamatus "Data Mining – Concepts and Techniques" toonud andmekaeve nimetuse teadmushõivega samavääristamine põhjenduseks, et kolmandad osapooled (turundajad, andmebaasisüsteemide loojad) on võtnud ühe teadmushõive protsessi etapi ning üldistanud selle kogu protsessile.

Fayyad toob oma teoses [6] välja selgemini mõistetava põhjenduse – andmekaeve on teadmushõive tuum-etapp, teised teadmushõive etapid täidavad vaid toetavat rolli, seetõttu on loomulik andmekaeve mõiste ülekandumine teadmushõivele.

Teadmushõive protsessid:

Teadmushõive protsess
  1. Andmete eeltöötlemine:
    1. Andmete puhastamine – müra eemaldamine ja andmete ühtlustamine
    2. Andmete kombineerimine – erinevate andmeallikate koondamine
    3. Andmete alamosadeks jaotamine – edasiseks analüüsiks vajalike andmete hankimine ja valimine
    4. Andmete transformeerimine ja normeerimine – muutujate koondamine üheks, pidevate suuruste diskreetimine, sh ka binaarsete suuruste tekitamine
  2. Teadmiste hankimine:
    1. Andmete kaevandamine – sobivate mudelite valik
  3. Järelanalüüs:
    1. Tulemuste hindamine – testandmete rakendamine; Hinnatakse leitud mustri huviväärsust, selleks peab leitud tulemus olema hõlpsalt tõlgendatav, püsiv (või hinnatava muutlikusega), kasulik ja informatiivne.
    2. Teadmiste rakendamine – tulemuste rakendamine ülesannetes või info lisamine eskertsüsteemidesse.

Teadmushõive süsteemi põhimõtteline skeem: [5]

  • Andmeallikas : Andmebaasisüsteem, andmeladu, veeb – andmete puhastamine ja koondamine
  • Andmebaasi server, andmelao klastrid – andmete kitsendamine ja ettevalmistamine
  • Teadmistebaas – andmekaeve eksperimendis uuritavate jaoks vajalike üldteadmiste kogum
  • Andmekaevanduse "mootor" – andmekaeve algoritmide tarkvaralised moodulid
  • Tulemuste hindamise süsteem – testandmete rakendamine ja tulemuste hindamine.
  • Kasutajaliides – tulemuste kuvamine ja tegevuste monitoorimine

CRISP-DM protsessimudel[muuda | redigeeri lähteteksti]

Juhtivate andmeanalüüsi ettevõtete loodud standard, mille eesmärk on kaitsta ärihuve ja ühtlustada andmekaeve protseduure, et protseduurid suudaksid tagada valdkonna ja vahendite sõltumatuse.

Protsesside lühiülevaade:

  1. Valdkonnaga tutvumine -äriliste eesmärkide kinnitamine, alusteadmiste kogumine ja nendega tutvumine.
  2. Andmete mõistmine – andmete kogumine, struktuuri ja andmete kvaliteeediga tutvumine.
  3. Andmete ettevalmistamine – suuruste tranformeerimine ja kohandamine algoritmidele sobivale kujule.
  4. Andmekaevandamine – sobivate tehnikate valimine ja rakendamine ettevalmistatud andmetel
  5. Tulemuste hindamine – hinnatakse tulemuste vastavust punktis 1 kokkulepitud äriliste eesmärkidega.
  6. Juurutamine – uute ja kasulike teadmiste integreerimine otsussüsteemidesse või lisamine teadmusbaasi.

Töömahu hinnanguline kulu protsesside kaupa:

Protsess Ajakulu(%) Alamprotsessid Äripool Analüütik IT
Valdkonnaga tutvumine 5–10 Eesmärkide püstitamine, edukuse määratlemine X
Andmete mõistmine 10–15 algandmete kogumine, andmete uurimine, kvaliteedi esmahinnang X X
Andmete ettevalmistamine 30–60 andmete valimine, puhastamine, kohandamine X X
Modelleerimine 20–30 Tehnikate ja tööriistade valimine, Mudelite koostamine X
Tulemuste hindamine 20–30 Kasulikuma mudeli valimine, mudeli tulemuste selgitamine X X
Rakendamine 5–10 Teadmiste rakendamine, monitoorimine ja hooldus X X X

Andmekaeve tehnikad[muuda | redigeeri lähteteksti]

Jagunevad üldiselt kahte kategooriasse:

  • Prognoosiv analüüs (inglise Predictive Analysis, vene Предсказательная аналитика) – eesmärk on hetkel olemasolevate andmete põhjal tuleviku või tundmatute väärtuste hindamine.
    • üks näiteid on regression, mis sarnaneb klassifitseerimisele, kuid mille väljund on pidev reaalarvuline suurus.
    • (nt: lineaarne regressioon, ... )
  • Kirjeldav analüüs – ülesanne on kirjeldada andmete omadusi
    • võivad jaguneda veel juhitud/juhtimata
    • klassifitseerimine – kindlasti juhtimisega tegevus – ajaloo/näite olemasolu on oluline
    • klasterdaminejuhendamiseta õppimine, juhindutakse vaid andmete laadi järgi, grupeeritakse põhimõttel "suurendada grupi vahelist sarnasust ning suurendada gruppidevahelist erinevust."
      • (SOM, ... )
    • seoste, mustrite analüüs – ostukorvi analüüs, põhjuslik-tagajärg jne
    • anomaaliate analüüs – teistest juhtumitest erinevate suuruste väljatoomine, täiendab statistilisi meetodeid, mis hindavad erijuhtumeid hälbe või tõenäosusega
    • evolutsiooni analüüs – eesmärk on uurida trendide muutumist
    • Visualiseerimine – (graafiline kaevandamine (inglise visual mining)) – mõnikord väga kasulik tehnika, sest sageli on inimese mustrite genereerimisvõime on märksa suurem kui programmil, sobiv tehnika tulemuste vahevalideerimiseks

Ekslikud tõlgendused[muuda | redigeeri lähteteksti]

Ajakirjanduses võib kohata andmekaevanduse vääriti tõlgendamist ja mõiste liigset laiendamist, mille tulemusena on täiesti omaette tehnoloogiamõisted koondatud andmekaeve alla. Mõistete segiajamine on valdavalt tingitud andmekaeve noorusest, paljud mõisted pole kinnistunud ja tehnoloogiamõistete hulk suureneb väga kiiresti.

  • Otsingumootorid, andmekogud – otsingu algoritmid võivad olla keerulised ja töötada suurte andmehulkadega, kuid tulemuste kuvamisel ei rakendata andmekaevanduse meetodikaid. Segiajamine on tingitud sellest, et otsingumootorid kasutavad teadmiste hankimisel andmekaeve algoritme, kuid ei tee seda otsingutulemuste kuvamisel.
  • OLAPandmelaonduse vaatevinklist võib andmekaeve paista kui täiustatud OLAP. Kuid OLAP seisneb vaid suurte andmekuupide koondamisel ja lõikamisel ning on info esitusviisilt deduktiivne (üldistav), samas on andmekaeve oma olemuselt induktiivne. Segiajajad on samuti ära unustanud, et OLAP pole automaatne, vaid teadmise hankimisel on vaja inimesepoolset juhendamist.
  • Masinõppe süsteem – kui kasutatakse inimese intellekti jäljendamisel, aga mitte informatsiooni paljastamisel andmehulkadest (pole pelgalt ML).
  • Statistilise analüüsi süsteem – graafilised kellad-viled petavad ära ning segiajajad on jällegi ära unustanud, et andmekaeve on automaatne protsess.

Statistika ja andmekaevandus[muuda | redigeeri lähteteksti]

Andmekaeve algusperioodil põhjustas uus andmetöötluse metoodika tuliseid vaidlusi ja sagedast mõistete segiajamist. Traditsiooniliste statistikute jaoks oli andmekaeve mõiste segane ja nad pidasid seda pelgalt äriliste ettevõtmiste uueks turundustrikiks ning hiljem, kui andmekaeve oli saavutanud arvestatava kõlapinna, hakkasid mitmed juhtivad statistikud andmekaevanduse mõistet suruma statistika alla.[7][8]

Tänapäeval on mõiste "andmekaeve" paika loksunud ning Fayyadi raamatus[6] on ära toodud selged piirid statistika ja andmekaeve vahel: "Statistikat defineeritakse kui meetodit andmete kogumiseks, esitlemiseks, kokkuvõtmiseks, hüpoteeside testimiseks ning järelduste tegemiseks, kasutades induktiivseid ja deduktiivseid arutluskäike. Andmekaevanduse eesmärgiks on eelkõige olemasolevatest andmetest huvitavate struktuuride määratlemine ning andmete vaheliste seoste ja mustrite leidmine, kasutades induktiivseid ja tehisintellekti tehnikaid. "

Väike erisuste loend

  • Eesmärk on sama
  • Metoodikad on erinevad
  • Statistika formaliseerib hüpoteesi enne andmete analüüsi
  • Statistika võimaldab testida üht hüpoteesi korraga.
  • Andmekaeve ülesande lahendamine ei eelda hüpoteesi püstitamist
  • Töödeldavad infomahud erinevad kordades
  • Andmekaevel on parem erijuhtumite ja müra tundlikkus
  • Statistika tegeleb vaid numbriliste suurustega
  • Andmekaeve võimaldab teha reaalajalisi analüüse

Rakendusvaldkonnad[muuda | redigeeri lähteteksti]

Finants, kindlustus[muuda | redigeeri lähteteksti]

  • Kliendi maksejõu hindamine
  • Kliendi riskigrupi määramine
  • Maksevõrgustiku analüüs
  • Krediitkaardi pettused
  • Rahapesu analüüs

Bioinformaatika[muuda | redigeeri lähteteksti]

  • DNA mikromassiivide klasterdamine

Kaupmehed[muuda | redigeeri lähteteksti]

  • Ostukorvi analüüs
  • Otseturundamine
  • Ristmüük
  • Järelmüük
  • Poe kaubalettide asetus

Telekommunikatsioon[muuda | redigeeri lähteteksti]

  • Klientide mikrosegmenteerimine
  • Kaugkõnede pettuste analüüs
  • Klientide lahkumise (lepingu lõpetamine, kõnekaardi mittekasutamine) tõenäosuste prognoosimine
  • Peale- ja ristmüügi võimaluste (tõenäosuste) prognoosimine

Isikuandmete kaitse[muuda | redigeeri lähteteksti]

Privaatsuspoliitika ning paranoiline (paraku mitte ka alusetu) hoiak erinevate eraeluliste andmete kogumisel on juba käesoleval hetkel tekitanud avalikke diskussioone erinevate andmete analüüsimise eetika kohta, seda ka Eestis.[9]

Reaalajaliste andmete töötlemise tundlikkuse ja kasulikkuse vahel tuleb teha kompromiss, sest saadud kasu on tavaliselt suurem. Näiteks nutifonide asukoha kaevandamine võimaldab paremini juhtida liiklust ning vähendada ummikuid. Samas küüniline allikate hägustamine ei pruugi veel tagada isikuandmete varjamist, sest mõnikord on võimalik mitme allika koondamisel tundlikud andmed taastada.[10]

Tarkvara[muuda | redigeeri lähteteksti]

  • Statistika keskkond R ja moodul Rattle
  • Matlab moodul Spyder
  • Weka, RapidMiner,
  • Programmeerimiskeelte laiendid: Python, Java

Organisatsioonid[muuda | redigeeri lähteteksti]

  • Eestis
    • BIIT
  • Rahvusvahelised
    • ACM KDD
    • IEEE CIS
    • PASCAL

Vaata ka[muuda | redigeeri lähteteksti]

Viited[muuda | redigeeri lähteteksti]

  1. EMS
  2. E-teatmik
  3. 3,0 3,1 VIpin Kumar, Pang-Ning Tan, Micheal Steinbach , "Introduction to Data Mining", USA, Pearson, 2006
  4. David J. Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", USA, MIT Press, 2001
  5. 5,0 5,1 Jiawei Han, Micheline Kamber: "Data Mining – Concepts and Techniques", USA, Morgan Kaufmann, 2. trükk, 2005
  6. 6,0 6,1 Usama Fayyad, Georges Grinstein, Andreas Wierse, "Information Visualization in Data Mining and Knowledge Discovery", USA, Morgan Kaufman, 2001
  7. Mannila: "Why do statisticians "hate" us?"
  8. Jerome Friedman: "Andmekaevanduse ning statistika seosed"
  9. Innar Liiv, "Andmekaevandamine", A&A 2002
  10. Carnegie Mellon intervjuu Tom. M. Mitchelliga 7. märts 2010

Välislingid[muuda | redigeeri lähteteksti]