K-keskmiste klasterdamine

Allikas: Vikipeedia
Jump to navigation Jump to search

k-keskmiste klasterdamine on meetod vektorite kvantimiseks, algselt signaalitöötluseks.[1] Meetod on populaarne andmekaeve klasteranalüüsis.

k-keskmiste klasterdamise eesmärk on jagada n objekti k klastrisse nii, et iga objekt kuuluks klastrisse, mille keskpunktile see kõige lähedamal on. Selle tulemusena jaotub andmeruum Voronoi rakkudeks.

Algoritm on sarnane k-lähima naabri algoritmiga, mis on tuntud masinõppe klassifitseerimises. k-lähima naabri algoritmi saab kasutada k-keskmiste algoritmist saadud klastrite keskpunktide peal, et klassifitseerida uusi andmeid olemasolevatesse klastritesse. Seda kutsutakse Rocchio algoritmiks või lähima tsentroidi klassifitseerijaks.

Kirjeldus[muuda | muuda lähteteksti]

Olgu antud hulk objekte (x1,x2,...,xn), kus iga objekt on d-mõõtmeline vektor. Siis jagab k-keskmiste klasterdamise algoritm n objekti k(≤n) hulka S = {(S1,S2,...,Sk)} nii, et klastrisisene hälvete ruutude summa oleks minimaalne (klastrisisene ruutude summa).

Eesmärk on leida

,

kus on Si punktide keskmine. See on võrdväärne samas klastris olevate punktipaaride hälvete minimeerimisega:

.

Selle võrdväärsuse saab tuletada valemist . Kuna koguhälve on konstantne, siis see on samuti võrdväärne erinevates klastrites olevate punktipaaride hälvete maksimeerimisega (klastritevaheline ruutude summa).[2]

Algoritm[muuda | muuda lähteteksti]

Standardne algoritm[muuda | muuda lähteteksti]

See algoritm on levinuim klasterdamise algoritm. See kasutab iteratiivset täiustamise meetodit. Seda algoritmi kutsutakse k-keskmiste algoritmiks. Just arvutiteaduses kutsutakse seda ka Lloydi algoritmiks.

Esiteks seadistatakse k keskpunkti m1,m2,...,mk, seejärel algoritm kordab kahte sammu:[3]

Ülesande samm: määrata iga objekt klastrisse, mille keskpunktile on antud objekt eukleidilise kaugusega kõige lähemal. (Matemaatiliselt tähendab see, et jaotame objektid vastavalt Voronoi diagrammiga, mille keskpunktid tekitavad.

kus iga objekti xp kohta on määratud täpselt üks klaster S(t) isegi siis, kui objekti oleks võimalik määrata rohkematesse klastritesse.

Uuenduse samm: Arvutada uued keskpunktid, milleks saavad tekkinud klastrite tsentroidid.

Algoritm on koondunud, kui ülesande sammus klastrid enam ei muutu. Pole garanteeritud, et algoritm leidis kõige optimaalsema lahenduse.[4]

See algoritm on tihti esitatud kui objektide lähimasse klastrisse määramine kauguse alusel. Mingi teise kauguse funktsiooni kasutamine (välja arvatud eukleidiline kaugus) võib takistada algoritmi koondumast. k-keskmiste algoritmile on pakutud välja erinevaid täiustusi, näiteks sfäärilist k-keskmist ja k-medoidi, mis lubavad kasutada teisi kaugusmeetmeid.

Initsialiseerimine[muuda | muuda lähteteksti]

Kõige sagedamini kasutatakse esimeste keskpunktide seadistamiseks Forgy ja suvalist jaotust.[5] Forgy meetod valib suvaliselt k objekti ja kasutab neid algsete keskmistena. Suvaline jaotuse meetod jagab kõik objektid suvaliselt k klastrisse ja seejärel teeb uuenduse sammu. Forgy meetod kipub algseid keskmisi hajutama, kuid suvalise jaotuse meetod paigutab kõik andmete keskele.[5]

Viited[muuda | muuda lähteteksti]

  1. Lloyd, S. P. (1957). "Least square quantization in PCM". Bell Telephone Laboratories Paper.  Published in journal much later: Lloyd., S. P. (1982). "Least squares quantization in PCM". IEEE Transactions on Information Theory 28 (2): 129–137. doi:10.1109/TIT.1982.1056489. Vaadatud 15.04.2009. 
  2. Kriegel, H. P; Schubert, E; Zimek, A (2016). The (black) art of runtime evaluation: Are we comparing algorithms or implementations?. Kd. 52. Institute for InformaticsLudwig-Maximilians-Universität München, Munich, Germany: Knowledge and Information Systems. Lk 341–378. 
  3. MacKay, D (2003). Information Theory, Inference and Learning Algorithms. Cambridge University: Cambridge University Press. Lk 284–292. ISBN 0-521-64298-1
  4. Hartigan, J. A.; Wong, M. A. (1979). Algorithm AS 136: A K-Means Clustering Algorithm. Kd. 28. Yale University: Journal of the Royal Statistical Society, Series C. Lk 100–108. 
  5. 5,0 5,1 Hamerly, G.; Elkan, C. (2002). "Alternatives to the k-means algorithm that find better clusterings". "Proceedings of the eleventh international conference on Information and knowledge management (CIKM)".