Korrelatsioon statistikas — määratlus, tüübid ja mõõdikud
Korrelatsioon statistikas: määratlus, positiivsed/negatiivsed suunad, peamised mõõdikud ja kuidas vältida põhjuse–tagajärje eksitusiot, et õigesti tõlgendada seoseid.
Statistikas ja tõenäosusteoorias tähendab korrelatsioon seda, kui tihedalt on kaks andmekogumit omavahel seotud.
Korrelatsioon ei tähenda alati, et üks põhjustab teist. On väga võimalik, et tegemist on kolmanda teguriga.
Korrelatsioonil on tavaliselt üks kahest suunast. Need on positiivne või negatiivne. Kui see on positiivne, siis lähevad kaks kogumit koos ülespoole. Kui see on negatiivne, siis üks neist tõuseb ja teine langeb.
Erinevates olukordades kasutatakse palju erinevaid korrelatsioonimõõtmisi. Näiteks tõmbavad inimesed hajuvusgraafikule parima sobivuse joone, et näidata korrelatsiooni suunda.
Mis täpsemalt on korrelatsioon?
Korrelatsioon kirjeldab kahe (või enam) muutuja vahelist seost: kas ja kuidas muutused ühes muutujas on seotud muutustega teises. See mõõdab seose suunda (positiivne või negatiivne) ja tugevust (kui tugevalt need muutused on seotud). Korrelatsioon ise ei anna otsest vastust kausaluse kohta — selleks on vaja eraldi disaini (näiteks eksperiment või põhjalik kontrollitud analüüs).
Korrelatsiooni suund ja tugevus
- Positiivne korrelatsioon — ühe muutuja väärtuse suurenemine on seotud teise väärtuse suurenemisega.
- Negatiivne korrelatsioon — ühe muutuja väärtuse suurenemine on seotud teise väärtuse vähenemisega.
- Nullkorrelatsioon — muutujate vahel ei ole lineaarset seost.
Tugevust kirjeldatakse sageli korrelatsioonikordaja absoluutväärtusega. Tõlgendamisel tuleb arvestada konteksti: sotsiaal- ja meditsiiniteadustes peetakse sagedasti 0,3–0,5 mõõdukaks korrelatsiooniks, aga insenerikontekstis võib oodata tugevamaid seoseid.
Peamised korrelatsioonimõõdikud
- Pearsoni korrelatsioonikordaja (r) — mõõdab lineaarset seost kahe pideva muutujaga. Võtab väärtusi −1 kuni +1. Lähedal ±1 on tugev lineaarne seos, 0 tähendab puuduvat lineaarset seost. Eeldab normaliseeritud ja lineaarset seost ning ei ole robustne väljaheidete suhtes.
- Spearmani järjestuskorrelatsioon (ρ) — mõõdab monotonset seost, kasutab järjestusi (rank’e). Sobib siis, kui seos ei ole rangelt lineaarne või andmed ei ole normaaljaotusega. Robustsem väljaheidete suhtes.
- Kendalli tau — samuti järjestuspõhine mõõdik monotonse seose tugevuse hindamiseks; tihti eelistatakse väiksemate valimite või palju tie-väärtustega andmete puhul.
- Phi- ja punkt-biseriaalne korrelatsioon — kasutatakse kahe binaarse muutuja (phi) või binaarse ja pideva muutuja (punkt-biseriaalne) vahelise seose mõõtmiseks.
- Osaline korrelatsioon — hindab kahe muutuja vahelist korrelatsiooni, kontrollides ühe või mitme teise muutuja mõju (kolmas tegur).
Graafiline kujutamine ja regressioon
Hajuvusgraafik (scatterplot) on lihtsaim viis kuvada kahe muutuja vahelist seost. Graafikule võidakse joonistada ka parima sobivuse joon (nt lihtne lineaarne regressioon), mis aitab näha lineaarse komponendi suunda ja tugevust. Oluline on visuaalselt kontrollida mitte-lineaarsust ja väljaheiteid — need võivad tugevalt mõjutada korrelatsioonimõõdikuid.
Tõlgendamine ja piirangud
- Kausaalus — korrelatsioon ei tõenda põhjuslikkust. Kolmas muutuja võib mõlemaid mõjutada, või seos võib olla juhuslik.
- Väljaheited — üksikud äärmuslikud punktid võivad Pearsoni r väärtust tugevalt kallutada.
- Mitmemõõtmeline sõltuvus — korrelatsioon mõõdab paarikesi; multikollineaarsus regressioonimudelis võib põhjustada tõlgendamisprobleeme.
- Lineaarne vs monotonne — Pearson mõõdab ainult lineaarset komponenti. Kui seos on kõver, võib Pearsoni r olla null, kuigi tugev mittelineaarne seos on olemas — siis sobib Spearman või modelleerimine mittelineaarsete funktsioonidega.
Statistiline testimine ja usaldusintervallid
Korrelatsioonikordaja puhul saab testida, kas see erineb nullist, kasutades sobivaid p-väärtusi või usaldusintervalli. Oluline on arvestada valimi suurust: väikestes valimites võivad isegi suured r‑väärtused olla ebakindlad, suurtes valimites võivad väikesed r‑id olla statistiliselt olulised, kuid mitte praktiliselt tähendusrikkad.
Praktilised näpunäited
- Alusta andmete visualiseerimisest (hajuvusgraafik), et näha mustreid ja väljaheiteid.
- Vali mõõdik (Pearson vs Spearman vs Kendall) vastavalt andmete ja seose tüübile (lineaarne vs monotonne).
- Kontrolli võimalikke segajaid (kolmas tegur) ja vajadusel kasuta osalist korrelatsiooni või multivariatiivset analüüsi.
- Pöördu usaldusintervallide ja p‑väärtuste poole valimi suuruse ja statistilise tähtsuse hindamiseks.
- Märgi selgelt, et korrelatsioon ei tõenda põhjuslikkust, ning kui eesmärk on põhjuslikkus, planeeri sobiv uurimisdisain.
Korrelatsioon on võimas tööriist andmete esialgseks uurimiseks ja seoste leidmiseks, kuid selle õige kasutamine nõuab tähelepanu eeldustele, graafilisele kontrollile ja ettevaatlikule tõlgendamisele.
See hajuvusgraafik on positiivse korrelatsiooniga. Seda on näha, sest trend on ülespoole ja paremale suunatud. Punane joon on parima sobivuse joon.
Korrelatsiooni selgitamine
Tugev ja nõrk on sõnad, mida kasutatakse korrelatsiooni kirjeldamiseks. Kui on tugev korrelatsioon, siis on punktid kõik lähestikku. Kui korrelatsioon on nõrk, siis on kõik punktid üksteisest lahutatud. On viise, kuidas arvud näitavad, kui tugev on korrelatsioon. Neid mõõtmisi nimetatakse korrelatsioonikoefitsientideks. Kõige tuntum on Pearsoni korrelatsioonikoefitsient. Sa sisestad andmed valemisse ja see annab sulle numbri. Kui see number on 1 või -1, siis on tegemist tugeva korrelatsiooniga. Kui vastus on 0, siis puudub korrelatsioon. Teine korrelatsioonikoefitsient on Spearmani korrelatsioonikoefitsient.
Korrelatsioon vs põhjuslikkus
Korrelatsioon ei tähenda alati, et üks asi põhjustab teist asja (põhjuslikkus), sest miski muu võib olla mõlema põhjuseks. Näiteks kuumadel päevadel ostavad inimesed jäätist ja inimesed lähevad ka randa, kus mõned saavad haisid süüa. Jäätise müügi ja haide rünnakute vahel on seos (mõlemad tõusevad, kui temperatuur tõuseb). Kuid see, et jäätise müük tõuseb, ei tähenda, et jäätise müük põhjustab (põhjuslikkus) rohkem hairünnakuid või vastupidi.
Kuna korrelatsioon ei tähenda põhjuslikkust, siis teadlased, majandusteadlased jne katsetavad oma teooriaid, luues isoleeritud keskkondi, kus muudetakse ainult ühte tegurit (kui see on võimalik). Poliitikud, müügimehed, uudisteagentuurid ja teised väidavad aga sageli, et teatav korrelatsioon tähendab põhjuslikku seost. See võib olla tingitud teadmatusest või soovist veenda. Nii võib uudislugu äratada tähelepanu, öeldes, et inimestel, kes tarbivad sagedamini teatavat toodet, on konkreetne terviseprobleem, mis viitab põhjuslikule seosele, mis tegelikult võib olla tingitud millestki muust.
Seotud leheküljed
- Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Rakendatud mitmekordne regressioon/korrelatsioonianalüüs käitumisteaduste jaoks. (3. trükk) Hillsdale, NJ: Lawrence Erlbaum Associates.
Küsimused ja vastused
K: Mis on korrelatsioon?
V: Korrelatsioon on viis näidata, kui tihedalt on kaks andmekogumit seotud.
K: Kas korrelatsioon tähendab, et üks andmekogum põhjustab teist?
V: Ei, korrelatsioon ei tähenda alati, et üks andmekogum põhjustab teist. Tegelikult on sageli kaasatud ka kolmas tegur.
K: Millised on korrelatsiooni kaks suunda?
V: Korrelatsiooni kaks suunda on positiivne ja negatiivne.
K: Mida tähendab positiivne korrelatsioon?
V: Positiivne korrelatsioon tähendab, et kaks andmekogumit tõusevad koos.
K: Mida tähendab negatiivne korrelatsioon?
V: Negatiivne korrelatsioon tähendab, et üks andmekogum tõuseb ja teine langeb.
K: Kas on olemas erinevaid korrelatsiooni mõõtmisi?
V: Jah, erinevate olukordade puhul kasutatakse palju erinevaid korrelatsiooni mõõtmisi.
K: Kuidas näidatakse sageli korrelatsiooni suunda hajuvusgraafikul?
V: Inimesed joonistavad sageli parima sobivuse joone, et näidata korrelatsiooni suunda hajuvusgraafikul.
Otsige