Anscombe'i kvartett
See artikkel vajab toimetamist. |
Anscombe'i kvartett on näide statistikas, mille eesmärk on korrelatsioonanalüüsis lineaare korrelatsioonikordaja leidmise korral hajuvusdiagrammide tutvumise tähtsuse rõhutamine.[1] Nimelt iseloomustab lineaarne korrelatsioonikordaja vaid lineaarse seose tugevust. Juhul kui punktikogum järgib mingit mittelineaarset kõverat või sisaldab erindeid, siis seose tugevuse hindamiseks lineaarne korrelatsioonikordaja ei sobi.
Näite nimetus tuleneb tema tutvustajast statistikust Francis Anscombe'ist, kes 1973. aastal demonstreeris sellega andmete visuaalse esitlemise vajalikkust statistiliste üldistuste tegemisel, statistilises analüüsis.
Näite lähem kirjeldus
[muuda | muuda lähteteksti]Iga andmehulk koosneb üheteistkümnest punktist koordinaatidega (x,y), kusjuures x-i väärtused on kõigi nelja andmehulga puhul samad:
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Kõigi andmehulkade puhul:
Parameeter | Väärtus |
---|---|
x-i aritmeetiline keskmine on kõigil juhtudel | 9 (täpselt) |
x-i valimi dispersioon (sample variance) on kõigil juhutudel | 11 (täpselt) |
y-i aritmeetiline keskmine on kõigil juhtudel | 7.50 (ümardatud 2 komakohani) |
y-i valimi dispersioon on kõigil juhtudel | 4.122 or 4.127 (ümmardatud 3 komakohani) |
x-i ja y-i lineaarne korrelatsioonikordaja on kõigil juhtudel | 0.816 (ümardatud 3 komakohani) |
Lineaarregressiooni tulemusel saadud joon on | (ümardatud vastavalt 2 ja 3 komakohani) |
Lisaks on
- keskmise ruutvigade summad (sum of squared errors) 110,0
- x-i dispersiooni ruutvigade regressioonisummad (regression sums of squared errors) = 27,5
- regressioonijoone ruutvigade jääksummad (residual sums of squared errors) = 13,75
- determinatsioonikoefitsient (coefficient of determination) = 0,67
Ülemine vasakpoolne joonis kujutab enesest lihtsat kahe muutuja lineaarset sõltuvust, mis järgib normaaljaotust.
Ülevalt parempoolse joonise puhul ei ole tegu normaaljaotusega: kuigi võib näha kahe muutuja ilmset sõltuvust, ei ole tegu lineaarse sõltuvusega ning Pearsoni korrelatsioonikoefitsient
Alumisel vasakul jooniel on tegu lineaarse jaotuse, kuid erineva regressioonijoonega.
Alumisel paremal joonisel on näha, kuidas üksik erind (outlier) võib põhjustada piisavalt suure korrelatsioonikoefitsiendi isegi siis, kui kahe muutuja suhe ei ole lineaarne.
Viited
[muuda | muuda lähteteksti]- ↑ Ako Sauga (2020). Statistika õpik majanduseriala üliõpilastele. Tallinn: Tallinna Tehnikaülikooli kirjastus. Lk 27. ISBN 978-9949-83-519-5.
Välislingid
[muuda | muuda lähteteksti]- Department of Physics, University of Toronto
- Dynamic Applet made in GeoGebra showing the data & statistics and also allowing the points to be dragged (Set 5).