Statistikas ja tõenäosusteoorias tähendab korrelatsioon seda, kui tihedalt on kaks andmekogumit omavahel seotud.

Korrelatsioon ei tähenda alati, et üks põhjustab teist. On väga võimalik, et tegemist on kolmanda teguriga.

Korrelatsioonil on tavaliselt üks kahest suunast. Need on positiivne või negatiivne. Kui see on positiivne, siis lähevad kaks kogumit koos ülespoole. Kui see on negatiivne, siis üks neist tõuseb ja teine langeb.

Erinevates olukordades kasutatakse palju erinevaid korrelatsioonimõõtmisi. Näiteks tõmbavad inimesed hajuvusgraafikule parima sobivuse joone, et näidata korrelatsiooni suunda.

Mis täpsemalt on korrelatsioon?

Korrelatsioon kirjeldab kahe (või enam) muutuja vahelist seost: kas ja kuidas muutused ühes muutujas on seotud muutustega teises. See mõõdab seose suunda (positiivne või negatiivne) ja tugevust (kui tugevalt need muutused on seotud). Korrelatsioon ise ei anna otsest vastust kausaluse kohta — selleks on vaja eraldi disaini (näiteks eksperiment või põhjalik kontrollitud analüüs).

Korrelatsiooni suund ja tugevus

  • Positiivne korrelatsioon — ühe muutuja väärtuse suurenemine on seotud teise väärtuse suurenemisega.
  • Negatiivne korrelatsioon — ühe muutuja väärtuse suurenemine on seotud teise väärtuse vähenemisega.
  • Nullkorrelatsioon — muutujate vahel ei ole lineaarset seost.

Tugevust kirjeldatakse sageli korrelatsioonikordaja absoluutväärtusega. Tõlgendamisel tuleb arvestada konteksti: sotsiaal- ja meditsiiniteadustes peetakse sagedasti 0,3–0,5 mõõdukaks korrelatsiooniks, aga insenerikontekstis võib oodata tugevamaid seoseid.

Peamised korrelatsioonimõõdikud

  • Pearsoni korrelatsioonikordaja (r) — mõõdab lineaarset seost kahe pideva muutujaga. Võtab väärtusi −1 kuni +1. Lähedal ±1 on tugev lineaarne seos, 0 tähendab puuduvat lineaarset seost. Eeldab normaliseeritud ja lineaarset seost ning ei ole robustne väljaheidete suhtes.
  • Spearmani järjestuskorrelatsioon (ρ) — mõõdab monotonset seost, kasutab järjestusi (rank’e). Sobib siis, kui seos ei ole rangelt lineaarne või andmed ei ole normaaljaotusega. Robustsem väljaheidete suhtes.
  • Kendalli tau — samuti järjestuspõhine mõõdik monotonse seose tugevuse hindamiseks; tihti eelistatakse väiksemate valimite või palju tie-väärtustega andmete puhul.
  • Phi- ja punkt-biseriaalne korrelatsioon — kasutatakse kahe binaarse muutuja (phi) või binaarse ja pideva muutuja (punkt-biseriaalne) vahelise seose mõõtmiseks.
  • Osaline korrelatsioon — hindab kahe muutuja vahelist korrelatsiooni, kontrollides ühe või mitme teise muutuja mõju (kolmas tegur).

Graafiline kujutamine ja regressioon

Hajuvusgraafik (scatterplot) on lihtsaim viis kuvada kahe muutuja vahelist seost. Graafikule võidakse joonistada ka parima sobivuse joon (nt lihtne lineaarne regressioon), mis aitab näha lineaarse komponendi suunda ja tugevust. Oluline on visuaalselt kontrollida mitte-lineaarsust ja väljaheiteid — need võivad tugevalt mõjutada korrelatsioonimõõdikuid.

Tõlgendamine ja piirangud

  • Kausaalus — korrelatsioon ei tõenda põhjuslikkust. Kolmas muutuja võib mõlemaid mõjutada, või seos võib olla juhuslik.
  • Väljaheited — üksikud äärmuslikud punktid võivad Pearsoni r väärtust tugevalt kallutada.
  • Mitmemõõtmeline sõltuvus — korrelatsioon mõõdab paarikesi; multikollineaarsus regressioonimudelis võib põhjustada tõlgendamisprobleeme.
  • Lineaarne vs monotonne — Pearson mõõdab ainult lineaarset komponenti. Kui seos on kõver, võib Pearsoni r olla null, kuigi tugev mittelineaarne seos on olemas — siis sobib Spearman või modelleerimine mittelineaarsete funktsioonidega.

Statistiline testimine ja usaldusintervallid

Korrelatsioonikordaja puhul saab testida, kas see erineb nullist, kasutades sobivaid p-väärtusi või usaldusintervalli. Oluline on arvestada valimi suurust: väikestes valimites võivad isegi suured r‑väärtused olla ebakindlad, suurtes valimites võivad väikesed r‑id olla statistiliselt olulised, kuid mitte praktiliselt tähendusrikkad.

Praktilised näpunäited

  • Alusta andmete visualiseerimisest (hajuvusgraafik), et näha mustreid ja väljaheiteid.
  • Vali mõõdik (Pearson vs Spearman vs Kendall) vastavalt andmete ja seose tüübile (lineaarne vs monotonne).
  • Kontrolli võimalikke segajaid (kolmas tegur) ja vajadusel kasuta osalist korrelatsiooni või multivariatiivset analüüsi.
  • Pöördu usaldusintervallide ja p‑väärtuste poole valimi suuruse ja statistilise tähtsuse hindamiseks.
  • Märgi selgelt, et korrelatsioon ei tõenda põhjuslikkust, ning kui eesmärk on põhjuslikkus, planeeri sobiv uurimisdisain.

Korrelatsioon on võimas tööriist andmete esialgseks uurimiseks ja seoste leidmiseks, kuid selle õige kasutamine nõuab tähelepanu eeldustele, graafilisele kontrollile ja ettevaatlikule tõlgendamisele.