Spearmani korrelatsioonikoefitsient – definitsioon, valem ja näited

Õpi Spearmani korrelatsioonikoefitsienti: definitsioon, valem (ρ, r_s), samm-sammult arvutus ja praktilised näited statistilises analüüsis — ideaalne juhend andmete järjestamiseks ja seoste hindamiseks.

Autor: Leandro Alegsa

30-09-2025 16:07

Spearmani korrelatsioonikoefitsient on matemaatikas ja statistikas korrelatsiooni mõõtühik, mis on nimetatud selle tegija Charles Spearmani järgi. Seda kirjutatakse lühendatult kreeka tähega rho ( ρ {\displaystyle \rho } $\rho$ ) või mõnikord kui r s {\displaystyle r_{s}}. $r_{s}$ . See on arv, mis näitab, kui tihedalt on kaks andmekogumit omavahel seotud. Seda saab kasutada ainult selliste andmete puhul, mida saab järjestada, näiteks kõrgeimast madalaimani.

Üldine valem r s {\displaystyle r_{s}} $r_{s}$ on ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} $\rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

Kus ja millal Spearmani kasutada

Spearmani korrelatsioon mõõdab kahe muutuja vahelist monotoonset seost — see tähendab, kas ühe muutuja kasvamisega teise muutuja väärtused üldiselt kasvavad või vähenevad, sõltumata sellest, kas seos on lineaarne. Peamised kasutusjuhtumid:

andmed on järjestatavad (ordinal) või ei vasta Pearsoni korrelatsiooni eeldustele (näiteks ei ole normaaljaotust või on väljapoollineid);
soovitakse mõõta monotoonset, mitte tingimata lineaarset seost;
väikesed valimid, kus sobib ka täpsem permutatsioonitest (ehk täpne test), eriti kui eeldusi on raske rahuldada.

Tõlgendamine ja omadused

ρ väärtus jääb vahemikku -1 kuni +1. Näited:
- ρ = +1 tähendab perfektset positiivset monotoonset seost (kõik punktid järjestuvad samas järjekorras);
- ρ = -1 tähendab perfektset negatiivset monotoonset seost (üks järjekord on teisele täiesti vastupidine);
- ρ ≈ 0 tähendab, et monotoonset seost ei ole (või see on väga nõrk).
Raskemale väljapoollisele tundlikkus: Spearmani kasutab järjestusi, seega on see vähem tundlik väljapoollastele kui Pearsoni korrelatsioon.
Kui mul on t sidemed (sama väärtus mitu korda), antakse neile keskmised järjestused (average ranks) ja arvutus käib edasi vastavalt.
Spearmani saab arvutada kas otse valemist d (kui sidemeid pole) või arvutades Pearsoni korrelatsiooni muudetud andmetest (andmete asemel kasutatakse järjestusi).

Kuidas arvutada — samm-sammult näide

Oletame, et meil on viis erinevat arvutit ning me mõõdame nende hinda ja kiirust. Näideandmed (hind ja kiirus):

A: hind 1000, kiirus 2.5
B: hind 1500, kiirus 2.4
C: hind 1200, kiirus 2.9
D: hind 2000, kiirus 3.6
E: hind 900, kiirus 2.2

1) Määrame iga tunnuse järjestused (näiteks suurim=1, väikeim=n):

Hinnad (suurimast väikseimani): D(1), B(2), C(3), A(4), E(5)
Kiirused (suurimast väikseimani): D(1), C(2), A(3), B(4), E(5)

2) Arvutame iga paarisobjekti järjekorra erinevuse d ja ruudu d²:

D: d = 1−1 = 0, d² = 0
B: d = 2−4 = −2, d² = 4
C: d = 3−2 = 1, d² = 1
A: d = 4−3 = 1, d² = 1
E: d = 5−5 = 0, d² = 0

3) Summeerime d²: ∑d² = 0+4+1+1+0 = 6. N = 5.

4) Rakendame valemit: ρ = 1 − (6 * ∑d²) / (n (n² − 1)) = 1 − (6 * 6) / (5 * 24) = 1 − 36 / 120 = 0.7.

Seega antud näites on Spearmani korrelatsioon 0.7, mis viitab tugevale positiivsele monotoonsele seosele hinna ja kiiruse vahel (kallimad arvutid kipuvad olema kiirem kui odavamad), kuid seos ei ole perfektne.

Käsitlemine seoste ja sidemete (ties) korral

Kui andmetes on sidemeid (mitu identset väärtust), siis:

ande kasutatakse keskmisi järjestusi (average ranks) sidemete puhul;
valem ρ = 1 − 6∑d²/(n(n²−1)) kehtib hästi ilma sidemeteta; sidemete korral on usaldusväärsem arvutada Pearsoni korrelatsioon järjestatud väärtustest (st arvesta ranks ja lõpuks arvuta Pearson r nende järjestuste vahel) või kasutada sidemete korrigeerimisi p-väärtuse hindamiseks;
väikese valimi korral ja/või paljude sidemete puhul on soovitatav kasutada permutatsioonitesti või täpset testi, et saada usaldusväärne p-väärtus.

Statistiline tähendus ja testimine

Hüpoteeside testimisel, kui huvitab H0: ρ = 0, kasutatakse mitmeid lähenemisi:

suuremate valimite puhul saab kasutada ligikaudset t-statistikat: t ≈ ρ * sqrt((n−2)/(1−ρ²)), mis järgib ligikaudu t-jaotust n−2 vabadusastmega (see on ligikaudne ja eeldab mõningaid tingimusi);
väikeste n-de puhul või sidemete olemasolul on täpsem permutatsioonitest (shuffle test) või täpne Spearmani test, mis hindab nulljaotust läbi kõigi võimalike järjestuste ümberpaigutuste.

Spearmani vs Pearsoni korrelatsioon

Pearson mõõdab lineaarset seost ja eeldab pidevat, ligikaudu normaalselt jaotunud andmestikku (vähemalt homoscedastilisust), Spearmani mõõdab monotoonset seost ja on mitteparameetriline.
Kui suhe on lineaarne ja eeldused on täidetud, annavad Pearson ja Spearman sarnased tulemused; kui ei, võib Spearman paremini kajastada tugevat mitte-lineaarset monotoonset seost.

Kokkuvõte

Spearmani korrelatsioonikoefitsient on lihtne ja tugev mitteparameetriline mõõde monotoonsete seoste hindamiseks.
Seda kasutatakse järjestatavatele või eeldusi mittetäitvatele andmetele ning juhtudel, kus soovitakse väikest tundlikkust väljapoollaste suhtes.
Arvutamisel tuleb tähele panna sidemeid ja valimi suurust — testi täpsus sõltub neist ja p-väärtuste hindamiseks võib osutuda vajalikuks permutatsioonitest.

Töötab seda välja

Esimene samm

Selleks, et välja arvutada r s {\displaystyle r_{s}} $r_{s}$ , tuleb kõigepealt järjestada kõik andmed. Kasutame arvutite ja nende kiiruse sissejuhatuses toodud näidet.

Seega oleks madalaima hinnaga arvuti 1. kohal. Sellest kõrgemal asetsev oleks 2. Siis läheb see ülespoole, kuni kõik on järjestatud. Seda tuleb teha mõlema andmekogumiga.

PC	Hind ($)	R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	Kiirus (GHz)	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$
A	200	1	1.80	2
B	275	2	1.60	1
C	300	3	2.20	4
D	350	4	2.10	3
E	600	5	4.00	5

Teine samm

Järgmiseks peame leidma kahe rea vahelise erinevuse. Seejärel korrutatakse see vahe iseendaga, mida nimetatakse ruutkatteks. Erinevust nimetatakse d {\displaystyle d} $d$ ja arvu, mille saadakse d {\displaystyle d} $d$ ruutu moodustades, nimetatakse d 2 {\displaystyle d^{2}}. $d^{2}$ .

R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$	d {\displaystyle d} $d$	d 2 {\displaystyle d^{2}} $d^{2}$
1	2	-1	1
2	1	1	1
3	4	-1	1
4	3	1	1
5	5	0	0

Kolmas samm

Lugege, kui palju andmeid meil on. Need andmed on 1 kuni 5, seega on meil 5 andmestikku. Seda arvu nimetatakse n {\displaystyle n} .

Neljas samm

Lõpuks kasutame kõike, mida oleme seni välja töötanud, selles valemis: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} $r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ tähendab, et võtame kõigi veerus d 2 {\displaystyle d^{2}} olevate arvude summa. $d^{2}$ . Seda seetõttu, et ∑ {\displaystyle \sum} $\sum$ tähendab kokku.

Niisiis, ∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ on 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1+1} $1+1+1+1$ , mis on 4. Valem ütleb, et korruta see 6ga, mis on 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} $n(n^{2}-1)$ on 5 × ( 25 - 1 ) {\displaystyle 5\times (25-1)} $5\times (25-1)$ , mis on 120.

Niisiis, et leida r s {\displaystyle r_{s}} $r_{s}$ , teeme lihtsalt 1 - 24 120 = 0.8 {\displaystyle 1-{\cfrac {24}{120}}=0.8} $1-{\cfrac {24}{120}}=0.8$ .

Seetõttu on Spearmani korrelatsioonikoefitsient selle andmekogumi puhul 0,8.

Mida tähendavad numbrid

r s {\displaystyle r_{s}} $r_{s}$ annab alati vastuse vahemikus -1 ja 1. Vahepealsed numbrid on nagu skaala, kus -1 on väga tugev seos, 0 ei ole seos ja 1 on samuti väga tugev seos. Erinevus 1 ja -1 vahel seisneb selles, et 1 on positiivne korrelatsioon ja -1 on negatiivne korrelatsioon. Andmete graafik, mille r s {\displaystyle r_s} $r_{s}$ väärtus on -1, näeks välja nagu näidatud graafik, ainult et joon ja punktid kulgeksid vasakult ülevalt paremale alla.

Näiteks eespool esitatud andmete puhul oli r s {\displaystyle r_{s}} $r_{s}$ 0,8. Seega tähendab see, et tegemist on positiivse korrelatsiooniga. Kuna see on 1 lähedal, tähendab see, et seos kahe andmekogumi vahel on tugev. Seega võime öelda, et need kaks andmekogumit on omavahel seotud ja tõusevad koos. Kui see oleks -0,8, võiksime öelda, et need on seotud ja kui üks tõuseb, siis teine langeb.

See hajuvusgraafik on positiivse korrelatsiooniga. R s {\displaystyle r_{s}} $r_{s}$ väärtus oleks lähedal 1 või 0,9. Punane joon on parima sobivuse joon.

Kui kaks numbrit on samad

Mõnikord on andmete järjestamisel kaks või enam numbrit, mis on samad. Kui see juhtub r s {\displaystyle r_{s}} $r_{s}$ , võtame samade reitingute keskmist või keskmist. Neid nimetatakse võrdseteks ridadeks. Selleks reastame seotud arvud nii, nagu oleksid nad mitte seotud. Seejärel liidame kokku kõik reastused, mis neil oleks, ja jagame selle arvuga, kui palju neid on. Näiteks ütleme, et me reastame, kui hästi said erinevad inimesed õigekirja testis hakkama.

Testi tulemus	Koht	Koht (seotud)
4	1	1
6	2	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3}} ${\tfrac {2+3+4}{3}}=3$
6	3	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3}} ${\tfrac {2+3+4}{3}}=3$
6	4	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3}} ${\tfrac {2+3+4}{3}}=3$
8	5	5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5} ${\tfrac {5+6}{2}}=5.5$
8	6	5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5} ${\tfrac {5+6}{2}}=5.5$

Neid numbreid kasutatakse täpselt samamoodi nagu tavalisi auastmeid.

Seotud leheküljed

Korrelatsioon

Küsimused ja vastused

K: Mis on Spearmani korrelatsioonikoefitsient?

V: Spearmani korrelatsioonikoefitsient on korrelatsioonimõõdik, mis näitab, kui tihedalt on kaks andmekogumit omavahel seotud. Seda saab kasutada ainult selliste andmete puhul, mida saab järjestada, näiteks kõrgeimast madalaimani.

K: Kes on loonud Spearmani korrelatsioonikoefitsiendi?

V: Charles Spearman lõi Spearmani korrelatsioonikoefitsiendi.

K: Kuidas kirjutatakse Spearmani korrelatsioonikoefitsiendi üldine valem?

V: Spearmani korrelatsioonikoefitsiendi üldine valem on ρ = 1 - 6∑d2/n(n2-1).

K: Millal peaksite kasutama Spearmani ridade korrelatsioonikoefitsienti?

V: Spearmani korrelatsioonikoefitsienti tuleks kasutada siis, kui tahetakse näha, kui tihedalt on kaks andmekogumit omavahel seotud ja kas nad on üldse omavahel seotud.

K: Millist tüüpi andmetega see töötab?

V: See töötab mis tahes tüüpi andmetega, mida saab järjestada, näiteks kõrgeimast madalaimani.

K: Kas saate tuua näite, kus te seda meedet kasutate?

V: Näide, kus te võiksite seda meedet kasutada, võiks olla, kui teil on andmed selle kohta, kui kallid on erinevad arvutid, ja andmed selle kohta, kui kiired on arvutid, siis võiksite näha, kas need on seotud ja kui tihedalt nad on seotud, kasutades r_s.

Otsige