Spearmani korrelatsioonikoefitsient on matemaatikas ja statistikas korrelatsiooni mõõtühik, mis on nimetatud selle tegija Charles Spearmani järgi. Seda kirjutatakse lühendatult kreeka tähega rho ( ρ {\displaystyle \rho } ) või mõnikord kui r s {\displaystyle r_{s}}.
. See on arv, mis näitab, kui tihedalt on kaks andmekogumit omavahel seotud. Seda saab kasutada ainult selliste andmete puhul, mida saab järjestada, näiteks kõrgeimast madalaimani.
Üldine valem r s {\displaystyle r_{s}} on ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}
.
Kus ja millal Spearmani kasutada
Spearmani korrelatsioon mõõdab kahe muutuja vahelist monotoonset seost — see tähendab, kas ühe muutuja kasvamisega teise muutuja väärtused üldiselt kasvavad või vähenevad, sõltumata sellest, kas seos on lineaarne. Peamised kasutusjuhtumid:
- andmed on järjestatavad (ordinal) või ei vasta Pearsoni korrelatsiooni eeldustele (näiteks ei ole normaaljaotust või on väljapoollineid);
- soovitakse mõõta monotoonset, mitte tingimata lineaarset seost;
- väikesed valimid, kus sobib ka täpsem permutatsioonitest (ehk täpne test), eriti kui eeldusi on raske rahuldada.
Tõlgendamine ja omadused
- ρ väärtus jääb vahemikku -1 kuni +1. Näited:
- ρ = +1 tähendab perfektset positiivset monotoonset seost (kõik punktid järjestuvad samas järjekorras);
- ρ = -1 tähendab perfektset negatiivset monotoonset seost (üks järjekord on teisele täiesti vastupidine);
- ρ ≈ 0 tähendab, et monotoonset seost ei ole (või see on väga nõrk).
- Raskemale väljapoollisele tundlikkus: Spearmani kasutab järjestusi, seega on see vähem tundlik väljapoollastele kui Pearsoni korrelatsioon.
- Kui mul on t sidemed (sama väärtus mitu korda), antakse neile keskmised järjestused (average ranks) ja arvutus käib edasi vastavalt.
- Spearmani saab arvutada kas otse valemist d (kui sidemeid pole) või arvutades Pearsoni korrelatsiooni muudetud andmetest (andmete asemel kasutatakse järjestusi).
Kuidas arvutada — samm-sammult näide
Oletame, et meil on viis erinevat arvutit ning me mõõdame nende hinda ja kiirust. Näideandmed (hind ja kiirus):
- A: hind 1000, kiirus 2.5
- B: hind 1500, kiirus 2.4
- C: hind 1200, kiirus 2.9
- D: hind 2000, kiirus 3.6
- E: hind 900, kiirus 2.2
1) Määrame iga tunnuse järjestused (näiteks suurim=1, väikeim=n):
- Hinnad (suurimast väikseimani): D(1), B(2), C(3), A(4), E(5)
- Kiirused (suurimast väikseimani): D(1), C(2), A(3), B(4), E(5)
2) Arvutame iga paarisobjekti järjekorra erinevuse d ja ruudu d2:
- D: d = 1−1 = 0, d2 = 0
- B: d = 2−4 = −2, d2 = 4
- C: d = 3−2 = 1, d2 = 1
- A: d = 4−3 = 1, d2 = 1
- E: d = 5−5 = 0, d2 = 0
3) Summeerime d2: ∑d2 = 0+4+1+1+0 = 6. N = 5.
4) Rakendame valemit: ρ = 1 − (6 * ∑d2) / (n (n2 − 1)) = 1 − (6 * 6) / (5 * 24) = 1 − 36 / 120 = 0.7.
Seega antud näites on Spearmani korrelatsioon 0.7, mis viitab tugevale positiivsele monotoonsele seosele hinna ja kiiruse vahel (kallimad arvutid kipuvad olema kiirem kui odavamad), kuid seos ei ole perfektne.
Käsitlemine seoste ja sidemete (ties) korral
Kui andmetes on sidemeid (mitu identset väärtust), siis:
- ande kasutatakse keskmisi järjestusi (average ranks) sidemete puhul;
- valem ρ = 1 − 6∑d2/(n(n2−1)) kehtib hästi ilma sidemeteta; sidemete korral on usaldusväärsem arvutada Pearsoni korrelatsioon järjestatud väärtustest (st arvesta ranks ja lõpuks arvuta Pearson r nende järjestuste vahel) või kasutada sidemete korrigeerimisi p-väärtuse hindamiseks;
- väikese valimi korral ja/või paljude sidemete puhul on soovitatav kasutada permutatsioonitesti või täpset testi, et saada usaldusväärne p-väärtus.
Statistiline tähendus ja testimine
Hüpoteeside testimisel, kui huvitab H0: ρ = 0, kasutatakse mitmeid lähenemisi:
- suuremate valimite puhul saab kasutada ligikaudset t-statistikat: t ≈ ρ * sqrt((n−2)/(1−ρ2)), mis järgib ligikaudu t-jaotust n−2 vabadusastmega (see on ligikaudne ja eeldab mõningaid tingimusi);
- väikeste n-de puhul või sidemete olemasolul on täpsem permutatsioonitest (shuffle test) või täpne Spearmani test, mis hindab nulljaotust läbi kõigi võimalike järjestuste ümberpaigutuste.
Spearmani vs Pearsoni korrelatsioon
- Pearson mõõdab lineaarset seost ja eeldab pidevat, ligikaudu normaalselt jaotunud andmestikku (vähemalt homoscedastilisust), Spearmani mõõdab monotoonset seost ja on mitteparameetriline.
- Kui suhe on lineaarne ja eeldused on täidetud, annavad Pearson ja Spearman sarnased tulemused; kui ei, võib Spearman paremini kajastada tugevat mitte-lineaarset monotoonset seost.
Kokkuvõte
- Spearmani korrelatsioonikoefitsient on lihtne ja tugev mitteparameetriline mõõde monotoonsete seoste hindamiseks.
- Seda kasutatakse järjestatavatele või eeldusi mittetäitvatele andmetele ning juhtudel, kus soovitakse väikest tundlikkust väljapoollaste suhtes.
- Arvutamisel tuleb tähele panna sidemeid ja valimi suurust — testi täpsus sõltub neist ja p-väärtuste hindamiseks võib osutuda vajalikuks permutatsioonitest.