Anscombe'i kvartett

Allikas: Vikipeedia
Jump to navigation Jump to search
Kõik neli andmehulka on statistiliselt identsed, kuid graafiliselt erinevad

Anscombe'i kvartett on statistikas hoiatav näide sellest, kuidas neli statistiliste omaduste poolest identset andmehulka näivad graafiliselt kujutatuna erinevad.

Näite tõi 1973. aastal statistik Francis Anscombe, et demonstreerida andmete visuaalse esitlemise vajalikkust statistiliste üldistuste tegemisel, enne kui hakata andmete omavahelisi suhteid statistiliselt analüüsima.


Iga andmehulk koosneb üheteistkümnest punktist koordinaatidega (x,y), kusjuures x-i väärtused on kõigi nelja andmehulga puhul samad:

Anscombe's quartet
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89



Kõigi andmehulkade puhul:

Parameeter Väärtus
x-i aritmeetiline keskmine on kõigil juhtudel 9 (täpselt)
x-i valimi dispersioon (sample variance) on kõigil juhutudel 11 (täpselt)
y-i aritmeetiline keskmine on kõigil juhtudel 7.50 (ümardatud 2 komakohani)
y-i valimi dispersioon on kõigil juhtudel 4.122 or 4.127 (ümmardatud 3 komakohani)
x-i ja y-i korrelatsioon on kõigil juhtudel 0.816 (ümardatud 3 komakohani)
lineaarse regressiooni (linear regression) joon on kõigil juhtudel y = 3.00 + 0.500x (ümardatud vastavalt 2 ja 3 komakohani)

Lisaks on

  • keskmise ruutvigade summad (sum of squared errors) 110,0
  • x-i dispersiooni ruutvigade regressioonisummad (regression sums of squared errors) = 27,5
  • regressioonijoone ruutvigade jääksummad (residual sums of squared errors) = 13,75
  • determinatsioonikoefitsient (coefficient of determination) = 0,67

Ülemine vasakpoolne joonis kujutab enesest lihtsat kahe muutuja lineaarset sõltuvust, mis järgib normaaljaotust.

Ülevalt parempoolse joonise puhul ei ole tegu normaaljaotusega: kuigi võib näha kahe muutuja ilmset sõltuvust, ei ole tegu lineaarse sõltuvusega ning Pearsoni korrelatsioonikoefitsient (Pearson correlation coefficient)

Alumisel vasakul jooniel on tegu lineaarse jaotuse, kuid erineva regressioonijoonega.

Alumisel paremal joonisel on näha, kuidas üksik hälve (outlier) võib põhjustada piisavalt suure korrelatsioonikoefitsiendi isegi siis, kui kahe muutuja suhe ei ole lineaarne.





Välislingid[muuda | muuda lähteteksti]