Statistilised vead ja jäägid: määratlus, erinevused ja näited
Õpi statistiliste vigade ja jääkide määratlused, erinevused ja praktilised näited — selge juhend mõõtmisvigade mõistmiseks ja analüüsiks.
Statistilised vead ja jäägid tekivad, sest mõõtmine ei ole kunagi täpne.
Täpset mõõtmist ei ole võimalik teha, kuid on võimalik öelda, kui täpne on mõõtmine. Võib mõõta sama asja ikka ja jälle ja koguda kõik andmed kokku. See võimaldab teha andmete kohta statistikat. Vigade ja jääkide all mõeldakse erinevust vaadeldava või mõõdetud väärtuse ja tegeliku väärtuse vahel, mis on teadmata.
Kui on ainult üks juhuslik muutuja, on statistiliste vigade ja jääkide erinevus populatsiooni keskväärtuse ja (vaadeldava) valimi keskväärtuse vahe. Sellisel juhul on jääk erinevus selle vahel, mida tõenäosusjaotus ütleb, ja selle vahel, mida tegelikult mõõdeti.
Oletame, et tehakse eksperiment, et mõõta 21-aastaste meeste pikkust teatud piirkonnas. Jaotuse keskmine on 1,75 m. Kui üks juhuslikult valitud mees on 1,80 m pikk, on "(statistiline) viga" 0,05 m (5 cm); kui ta on 1,70 pikk, on viga -5 cm.
Residuaal (või kohandamisviga) on seevastu jälgitav hinnang vaatluseta statistilise vea kohta. Kõige lihtsamal juhul on tegemist n mehe juhusliku valimiga, kelle pikkust mõõdetakse. Valimi keskmist kasutatakse populatsiooni keskmise hinnanguna. Siis on meil:
- Iga valimisse kuuluva mehe pikkuse ja vaatlemata populatsiooni keskmise pikkuse erinevus on statistiline viga ja
- Iga valimisse kuuluva mehe pikkuse ja vaadeldava valimi keskmise pikkuse vahe on jääk.
Juhusliku valimi jääkide summa peab olema null. Seega ei ole jäägid sõltumatud. Statistiliste vigade summa juhuvalimi piires ei pea olema null; statistilised vead on sõltumatud juhuslikud muutujad, kui indiviidid valitakse populatsioonist sõltumatult.
Mida täpselt mõistetakse statistilise vea ja jäägi all?
Statistiline viga (inglise keeles "statistical error" või lihtsalt "error") on erinevus ühe vaatluse tegeliku (tõelise, kuid tavaliselt tundmatu) populatsioonilise väärtuse ja vaatluse enda vahel. Matemaatiliselt: kui μ on populatsiooni tõeline keskväärtus ja yᵢ on i‑nda indiviidi mõõdetud väärtus, siis statistiline viga on yᵢ − μ. See on juhuslik muutujana määratud kogu populatsiooni ja tõeliselt teadmata kui me ei tea μ.
Jääk (residuaal) on seevastu vaatluse ja hinnangu (nt valimi keskmise või regressioonimudeli põhjal arvutatud võrdluse) vahe. Näiteks lihtsa valimi korral on jääk rᵢ = yᵢ − x̄, kus x̄ on valimi keskmine. Regressioonis on jääkiks eᵢ = yᵢ − ŷᵢ, kus ŷᵢ on mudeli prognoos i‑nda vaatluse kohta.
Peamised erinevused
- Tähendus: viga viitab tõelisele, sageli tundmatule kõrvalekaldele populatsiooni suhtes; jääk on selle vea hinnang ja arvutatav andmete põhjal.
- Sõltumatus: kui vaatlusüksused on sõltumatud, siis modelleerimata (tõelised) vead võivad olla omavahel sõltumatud; jäägid seevastu ei ole üldjuhul sõltumatud, sest need sõltuvad ühest ja samast hinnangust (näiteks valimi keskmisest või regressiooniparameetritest).
- Summa ja piirangud: valimi jääkide summa on sageli null (näiteks Σ(yᵢ − x̄) = 0 või regressioonis Σ eᵢ = 0 kui mudel sisaldab konstandi). Statistiliste vigade summa seda tingimust ei pea täitma.
- Roll parameetri hindamisel: jääke kasutatakse mudeli sobivuse hindamiseks, vea variatsiooni mõõtmiseks ja hüpoteeside testimiseks; statistiline viga on teoreetiline mõiste, mida kasutatakse jaotuste ja mudelite defineerimiseks.
Matemaatilised näited ja omadused
Lihtne näide kõrguste põhjal:
- Populatsiooni keskväärtus μ = 1,75 m.
- Ühe isiku mõõdetud kõrgus y = 1,80 m → statistiline viga y − μ = 0,05 m.
- Kui valimi keskmine on x̄ = 1,76 m, siis sama isiku jääk on r = y − x̄ = 0,04 m.
Olulised matemaatilised omadused:
- Summa null: Σ rᵢ = 0 (kui kasutusel on valimi keskmine või regressioon, mis sisaldab konstanttähistajat).
- Jääkide ruutude summa (RSS, residual sum of squares) mõõdab mudeli sobimatuse suurust: RSS = Σ eᵢ². Regressioonis kasutatakse RSS‑i õiguslikult hälvete variatsiooni hindamiseks ja σ² hinnanguks.
- Hinnangu ebakaldus: näiteks valimi dispersiooni hinnang kasutab jagajat n−1 (mitte n), mis tuleneb jääkide ja keskmise omavahelisest sõltuvusest — see on seos statistiliste vigade ja jääkide vahel.
Jäägid regressioonis
Regressioonimudelis on vaatluse mudeliülese (tõelise) vea ja jäägi vahe eriti tähtis:
- Tõeline mudel: yᵢ = xᵢ'β + uᵢ, kus uᵢ on tõeline juhuslik viga (statistiline viga) ja β on tundmatu parameeter.
- Hinnatud mudel: yᵢ = xᵢ'β̂ + eᵢ, kus eᵢ on jääk (residuaal) ja β̂ on hinnang, mis arvutatakse andmetest.
Olulised punktid regressiooni kontekstis:
- OLS‑hinnanguga on jäägid ortogonaalsed (summa või sisetootega) seletajatega: Σ x_{ij} eᵢ = 0 iga regressor j puhul (see kehtib kui mudel sisaldab konstantti).
- Jäägid ei ole üldjuhul sõltumatud ega identse jaotusega — eeldused (nt homoscedasticity, sõltumatud uᵢ) mõjutavad testide ja usaldusintervallide korrektset kasutamist.
- Variatsiooni hinnang: σ̂² = RSS/(n − p), kus p on hinnatavate parameetrite arv (sh konstant). Jagamine n−p tuleneb sellest, et p piirangut "võtab ära" vaba astmete arvu — see on otsene tagajärg jääkide mittesõltuvusele.
Praktilised märkused ja diagnostika
- Enne järelduste tegemist kontrolli jääkide mustreid: joonista jäägid vs prognoosid ja jäägid vs seletajad, et otsida heteroskedastiilsust või mitte‑lineaarsust.
- Normaliteedieelduse kontroll: palju teste ja intervallihinnanguid eeldavad, et tõelised vead uᵢ on normaaljaotusega; jäägid peavad sageli sarnast jaotust, kuid jääkide jaotuse uurimine annab vaid ligikaudse informatsiooni.
- Kui jäägid näitavad sõltuvust või mustreid, võib vaja minna teisendusi, lisamuutujaid või teistsugust mudelit (nt heteroskedastilisuse‑korrigeeritud standardvead, ARIMA‑mudelid ajasõltuvuse jaoks jne).
Lihtsad numerilised illustreerivad näited
- Valim: y = {1.70, 1.80, 1.75}, x̄ = 1.75 → jäägid: {−0.05, 0.05, 0}. Summa = 0. Statistilised vead aga arvutataks võrreldes populatsiooni μ‑ga (kui μ = 1.75, siis samad väärtused; muutuja on siin see, kas μ on teada või hinnatav).
- Regressioonis: kui y = a + b x + u, ja hinnatud b̂, siis iga jääk eᵢ = yᵢ − â − b̂ xᵢ. Kuigi uᵢ võivad olla sõltumatud, on eᵢ sõltuvad, sest kõik sisaldavad sama â ja b̂.
Levinud segadused, mida vältida
- Ära kasuta sõnu "viga" ja "jääk" sünonüümidena — neil on erinev tähendus statistilises teoorias.
- Ei tohiks eeldada, et jäägid on sõltumatud ega normaaljaotusega ilma kontrollita — need omadused tulenevad mudeli ja andmete eeldustest.
- Summa null jääkide puhul ei tähenda, et mudel on hea — see on vaid algebrailine omadus, mis kehtib teatud hinnangumeetodite puhul (nt OLS koos konstanti sisaldava mudeliga).
Kokkuvõttes:
- Statistiline viga on tegeliku populatsioonilise väärtuse ja vaatluse erinevus (tavaliselt tundmatu, teoreetiline suurus).
- Jääk (residuaal) on andmetest saadud hinnang statistilisele veale (näiteks yᵢ − x̄ või yᵢ − ŷᵢ) ja on arvutatav.
- Jääkide summa on sageli null ja jäägid ei ole sõltumatud; see mõjutab variatsiooni hinnanguid (n − p) ja statistilisi teste.
- Jäägid on diagnostika peamine tööriist — nende analüüs aitab tuvastada mudeli sobimatust, heteroskedastiilsust ja muid probleeme.
- Erinevuste mõistmine on oluline nii teoreetiliseks statistiliseks tööks kui ka praktiliseks andmeanalüüsiks ja mudelite valideerimiseks.
Seotud leheküljed
Küsimused ja vastused
Küsimus: Mida tähendab statistiline viga ja residuaal?
V: Statistilised vead ja residuaalid tähendavad erinevust vaadeldava või mõõdetud väärtuse ja tegeliku väärtuse vahel, mis on teadmata.
K: Kuidas saab mõõta mõõtmise täpsust?
V: Võib mõõta sama asja uuesti ja uuesti ning koguda kõik andmed kokku. See võimaldab teha andmetega statistikat, et teha kindlaks, kui täpne on mõõtmine.
K: Mis on näide statistilisest veast?
V: Statistilise vea näide oleks, et kui tehakse katse, mille käigus mõõdetakse teatud piirkonnast pärit 21-aastaste meeste pikkust, mille eeldatav keskmine on 1,75 m, kuid üks juhuslikult valitud mees on 1,80 m pikk; siis oleks "(statistiline) viga" 0,05 m (5 cm).
K: Mis on näide residuaali kohta?
V: Näide residuaali kohta oleks, kui oleks tehtud eksperiment, et mõõta 21-aastaste meeste pikkust teatud piirkonnast, mille oodatav keskmine oli 1,75m, kuid üks juhuslikult valitud mees oli 1,70m pikk; siis oleks residuaal (või sobitusviga) -0,05m (-5cm).
K: Kas residuaalid on sõltumatud muutujad?
V: Ei, residuaalide summa juhusliku valimi piires peab olema null, seega ei ole need sõltumatud muutujad.
K: Kas statistilised vead on sõltumatud muutujad?
V: Jah, Statistiliste vigade summa juhuvalimi piires ei pea olema null; seega on need sõltumatud juhuslikud muutujad, kui üksikisikud valitakse populatsioonist sõltumatult.
K: Kas on võimalik teha täpseid mõõtmisi?
V: Ei, täpseid mõõtmisi ei ole võimalik teha, sest mõõtmine ei ole kunagi täpne.