Peakomponentide analüüs

Allikas: Vikipeedia
Mitme muutujaga Gaussi jaotuse peakomponentide analüüs, mille keskpunkt on (1,3). Näidatud vektorid on kovariatsioonimaatriksi omavektorid, mis on skaleeritud vastava omaväärtuse ruutjuure võrra.

Peakomponentide analüüs (Principal component analysis, PCA) ehk peakomponentide meetod on matemaatiline meetod, mis võimaldab suurest hulgast andmetest (andmekogust) saada võimalikult tõene vajalik informatsioon kasutades vaid mittekorreleeruvaid peakomponentide andmeid. Peakomponentide abil saadakse süsteemi iseloomustus, kusjuures kaotatakse minimaalselt informatsiooni. Seega on peakomponentide analüüs efektiivne meetod suurte andmekogude analüüsimiseks, mis sisaldavad ühe vaatluse kohta suurt hulka mõõtmeid/funktsioone, samal ajal säilitades maksimaalse teabehulga, ja võimaldades mitmemõõtmeliste andmete visualiseerimist. Peakomponentide analüüs on kasulik statistiline meetod andmekogumi mõõtmete vähendamiseks. Andmed teisendatakse lineaarse teisendamisega uude koordinaatsüsteemi, kus (enamik) andmete varieerumist saab kirjeldada väiksemate mõõtmetega kui algandmed. Seetõttu kasutatakse seda paljudes uuringutes. Peakomponentide analüüsil on rakendusi paljudes valdkondades, nagu populatsioonigeneetika, mikrobioomiuuringud ja atmosfääriteadus. [1]

Reaalse koordinaat ruumi punktide kogumi põhikomponendid on jada p ühikvektorid, kus i-s vektor on joone suund, mis sobib andmetega kõige paremini, olles samas esimesega ortogonaalne i-1 vektorid. Siin määratletakse kõige paremini sobivat joont, mis minimeerib keskmist ruudukujulist risti kaugust punktidest jooneni. Need suunad moodustavad ortonormaalse aluse, milles andmete erinevad individuaalsed mõõtmed on lineaarselt korrelatsioonita. Põhikomponentide analüüs on protsess, mille käigus arvutatakse välja põhikomponendid ja kasutatakse neid andmete aluse muutmiseks, kasutades mõnikord ainult paari esimest põhikomponenti ja ignoreerides ülejäänud. Andmeanalüüsis on komplekti esimene põhikomponent p muutujad, mida eeldatakse ühiselt normaalselt jaotatud, on tuletatud muutuja, mis on moodustatud algsete muutujate lineaarse kombinatsioonina, mis selgitab kõige suuremat dispersiooni. Teine põhikomponent selgitab kõige suuremat erinevust selles, mis jääb alles pärast esimese komponendi mõju eemaldamist, ja me võime jätkata p iteratsioone, kuni kogu dispersioon on selgitatud. PCA-d kasutatakse kõige sagedamini siis, kui paljud muutujad on üksteisega tugevas korrelatsioonis ja on soovitav vähendada nende arvu sõltumatuks hulgaks. [2]

Peakomponentide analüüsi kasutatakse uurimuslikul andmeanalüüsil ja ennustavate mudelite koostamisel. Seda kasutatakse mõõtmete vähendamiseks, projekteerides iga andmepunkti ainult paarile esimesele põhikomponendile, et saada madalama mõõtmega andmeid, säilitades samal ajal võimalikult suure osa andmete varieerumisest. Esimest põhikomponenti saab samaväärselt määratleda suunana, mis maksimeerib projekteeritud andmete dispersiooni.

Peakomponentide analüüsi ilustratsioon

i-ndat põhiprintsiipkomponenti saab võtta kui suunda, mis on täisnurkne esimesele i-1 põhiprintsiipkomponendile ning maksimeerib projekteeritud andmete varieeruvust. [3]

Mõlema eesmärgi puhul on võimalik näidata, et põhikomponendid on andmete kovariatsioonimaatriksi omavektorid. Seega arvutatakse põhikomponendid sageli andmete kovariatsioonimaatriksi omajaotuse või andmemaatriksi ainsuse väärtuse lagunemise teel. Peakomponentide analüüs on tõelistest omavektoripõhistest mitme muutujaga analüüsidest lihtsaim ja on tihedalt seotud faktoranalüüsiga. Faktoranalüüs sisaldab tavaliselt rohkem domeenispetsiifilisi eeldusi alusstruktuuri kohta ja lahendab veidi erineva maatriksi omavektorid. Peakomponentide analüüs on seotud ka kanoonilise korrelatsioonianalüüsiga (CCA). CCA määratleb koordinaatsüsteemid, mis kirjeldavad optimaalselt kahe andmekogumi vahelist rist kovariaati, samas kui peakomponentide analüüs määratleb uue täisnurkse koordinaadisüsteemi, mis kirjeldab optimaalselt ühes andmekogumis dispersiooni. [4] [5] [6]

Vaata ka[muuda | muuda lähteteksti]

Välislingid[muuda | muuda lähteteksti]

Principal component analysis

Viited[muuda | muuda lähteteksti]

  1. Jolliffe, Ian T.; Cadima, Jorge (2016-04-13). "Principal component analysis: a review and recent developments". Philosophical Transactions of the Royal Society A: Mathematical. Vaadatud: 25.03.2023
  2. Tooding, Liina-Mai, (2014). "Faktoranalüüs". Vaadatud: 12.04.2023
  3. Osula Kairi, (2018). "Faktoranalüüs". Vaadatud: 12.04.2023
  4. Barnett, T. P. & R. Preisendorfer. (1987). "Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis". Monthly Weather Review. Vaadatud: 25.03.2023
  5. Hsu, Daniel; Kakade, Sham M.; Zhang, Tong (2008). "A spectral algorithm for learning hidden markov models" Vaadatud: 25.03.2023
  6. Chachlakis, Dimitris G.; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 November 2019). "L1-norm Tucker Tensor Decomposition" . Vaadatud: 03.04.2023