Valim statistikas: määratlus, tüübid, juhuslikkus ja kallutatus
Statistikas on valim osa üldkogumist. Valim valitakse nii, et see esitaks kogu üldkogumit võimalikult õiglaselt ja ilma eelarvamusteta. Valimit kasutatakse seetõttu, et populatsioonid võivad olla nii suured või raskesti ligipääsetavad, et kõigi üksuste loendamine ei ole võimalik ega otstarbekas. Hea valim võimaldab teha järeldusi kogu populatsiooni kohta, säästes aega ja ressursse.
Probleemi lahendamine statistikas algab tavaliselt valimi kavandamisest: otsustatakse, milliseid andmeid ja kuidas koguda hilisemaks analüüsiks. Näiteks uurides järve reostust., mõjutab palju see, kust ja millal veeproovid võetakse — erinevad kohad ja sügavused annavad eri tulemusi. Üldreeglina peaksid proovid olema juhuslikud, sellest tuleneb, et iga indiviidi valimise tõenäosus on sama suur kui mis tahes teise indiviidi valimise tõenäosus; see lihtsustab tulemuste tõlgendamist ja välistab teadlikud valikueesmärgid.
Juhuslike valimite saamiseks kasutatakse alati täpselt määratletud protseduure. Protseduur on reeglite kogum — sammude jada, mis on paberile kantud ja rangelt järgitud. Isegi hoolika protseduuri korral võivad andmetes siiski esineda erinevaid kallutusi. Näiteks valimisküsitluste prognooside ja tegelike valimistulemuste vahel esinev erinevus tekib sageli seetõttu, et andmete kogumine telefoni või tänaval kohtudes jätab osa elanikkonnast hõlmatuks vähem kui teisi. Sellistel juhtudel ei saa saavutada täiesti neutraalset valimit; statistik peab siis kaaluma, kuidas hinnata ja korrigeerida kallutatust ning milliseid meetodeid kasutada selle hindamiseks.
Sarnane ebakindlus tekib ka füüsikaliste mõõtmiste puhul. Kui mõõta näiteks metallitüki massi või valguse kiirust, annavad isegi tundlikud seadmed alati pisut erinevaid tulemusi — ükski mõõtmissüsteem ei ole kunagi täiesti veavaba. Saadud mõõtmistest moodustuvad hinnangud, mis sisaldavad teatud veaaste. Statistika pakub tööriistu vigade kirjeldamiseks, mõju hindamiseks ja usaldusväärsete järelduste tegemiseks.
On olemas eri tüüpi proovid:
Valimi tüübid
- Lihtne juhuslik valim — iga üksus populatsioonist on sama tõenäosusega valitav. Tavaliselt saavutatakse juhuslike täisarvude või juhuarvustiku abil.
- Süsteemne valim — valitakse iga k‑te element nimekirjast (nt iga 10. inimene). See on lihtne ja kiire, kuid võib anda kallutatuse, kui loendis on korduvaid mustreid.
- Kihtne (stratified) valim — populatsioon jagatakse homogeenseteks kihtideks (nt vanuse, soo või piirkonna järgi) ja igast kihist võetakse juhuslik valim. Sobib, kui kihid erinevad olulisel kujul.
- Klastervalim — populatsioon jaotatakse klastriteks (nt koolid, majad) ja juhuslikult valitakse mõned klastrid ning seejärel kas kõik üksused klastrist või valim neist. Kuluefektiivne, aga suurendab varieeruvust võrreldes lihtsa juhusliku valimiga.
- Mitmeastmeline valim — kombineeritud klaster- ja kihistamisstrateegiad, sobib suurte ja geograafiliselt hajutatud populatsioonide puhul.
- Ei‑tõenäosuslikud valimid — hõlmavad mugavusvalimit, eesmärgipärast (purposive) valimit, kvotivalimit ja lumehelbevalimit. Need on lihtsamad ja odavamad, kuid tulemuste üldistamine populatsioonile on piiratud.
Juhuslikkus ja juhusliku valimise tähtsus
Juhuslikkus tagab, et valimist pärinev mittetäielikkus (s.t. valimi juhuslik viga) on mõõdetav ja statistiliselt töödelav. Juhusliku valiku saavutamiseks kasutatakse juhuarvu, juhuarvutabeleid või arvutipõhiseid generaatorid (RNG). Eksperimentides tähendab juhuslikustamine ka osalejate juhuslikku jaotamist rühmadesse, mis vähendab segavate tegurite mõju ja toetab põhjuslikke järeldusi.
Valimi kallutatus ja vead
Valimi tulemust mõjutavad kaks peamist vealiiki:
- Valimi viga (sampling error) — tekkib siis, kui valim erineb juhuslikult populatsioonist. Selle suurust saab hinnata statistiliste mõõdikute (nt standardviga, usaldusvahemik) abil.
- Mittevõetavusviga ja mittenäidelduslikud vead (nonsampling errors) — hõlmavad valiku‑, katvuse‑, vastamispõhiseid ja mõõtmisvigu. Näited: valiku‑ või katvusbias (nt puuduvad raskesti ligipääsetavad rühmad), vastamata jätmise bias (nonresponse), mõõtmisviga (halvad küsimused või ebatäpne instrument) ja andmetöötluse vead.
Spetsiaalselt oluline on valiku‑kallutatus (selection bias), mis tekib siis, kui valim ei kata kõiki populatsiooni alasid võrdselt, ning vastamis‑kallutatus, kui teatud tüüpi isikud vastavad tõenäolisemalt kui teised. Mõõtmisvigade vähendamiseks on vaja standardiseerida küsimused ja kalibreerida seadmed.
Kallutatuse vähendamise ja parandamise meetodid
- Hea ja täielik valimiseade ehk sampling frame — täpne nimekiri või register populatsiooni üksustest.
- Kasuta tõenäosuslikke valimismeetodeid (lihtne juhuslik, kihiline, klaster), kui üldistamine on eesmärk.
- Tõsta vastustõenäosust: mitmekanaliline lähenemine (telefon, e‑post, kirja teel), meeldetuletused, motiveerivad hüved.
- Andmete kaalu (weighting) ja järeltöötlus: post‑stratifikatsioon, kalibreerimine, imputatsioon puuduvate väärtuste asendamiseks.
- Blindeerimine ja standardiseeritud mõõtemeetodid mõõtmisvigade vähendamiseks.
Valimi suuruse määramine ja vea hindamine
Valimi suurus sõltub eesmärgist: kui täpset hinnangut soovitakse (marginaalviga), milline on soovitud usaldustase (nt 95%) ja kui suur on hinnatav dispersioon (nt proportsiooni puhul p*(1-p)). Olulised mõisted:
- Marginaalviga — kui palju võib hinnang keskmiselt erineda populatsiooni tegelikust väärtusest.
- Usaldusvahemik — vahemik, mis tõenäoliselt sisaldab tegelikku parameetrit (nt 95% usaldusvahemik).
- Võimsusanalüüs — eelkõige hüpoteeside testide puhul; määrab minimaalse valimisuuruse, et avastada eeldatud efekt soovitud tõenäosusega.
- Disainiefekt (design effect) — komplexsete valimite (nt klaster) korral suurendab see efektiivset variatsiooni ja nõuab suuremat valimisuurust võrreldes lihtsa juhuslikuga.
- Finiitpopulatsiooni korrigeerimine — kui valimisvõimalus on suur osa populatsioonist (<10–20%), tuleb variatsiooni hinnangut kohandada.
Statistilised õigusaktid ja teoreemid
Olulised teoreetilised tööriistad on näiteks keskväärtuse piirtheoreem (Central Limit Theorem), mis tagab, et valimi keskmiste jaotus muutub piisava valimisuuruse juures ligikaudu normaalseks, ning seaduspärasus, mis võimaldab hinnata standardviga ja koostada usaldusvahemikke. Valimi disaini ja õigsuse hindamiseks kasutatakse ka pseudo‑ ja bootstrapi meetodeid keerulisemate hinnangute variatsiooni hindamiseks.
Praktilised soovitused
- Alusta selge uurimisküsimuse ja sihtpopulatsiooni määratlusest.
- Vali sobiv valimimeetod (tõenäosuslik me eelistatud kui eesmärk on üldistamine).
- Koosta hea ja ajakohane valimiseade ning kasuta standardiseeritud andmekogumismeetodeid.
- Mõtle ette mittetõenäosuslike vigade võimalikku mõju ja planeeri nende vähendamiseks meetmed (võtete kaalumine, järeldusanalüüsid tm.).
- Dokumenteeri kogu protsess: kuidas valiti, millised vastus‑ ja puudujäägid ilmnesid ning kuidas neid käsitleti — see suurendab tulemuste usaldusväärsust ja korduvust.
Kokkuvõtlikult: valim on statistika keskne tööriist — korralikult planeeritud ja juhuslikult valitud valim võimaldab teha usaldusväärseid järeldusi suurema ja sageli kättesaamatu populatsiooni kohta. Samas tuleb olla teadlik võimalikest kallutatustest ning rakendada sobivaid meetodeid nende hindamiseks ja vähendamiseks.


Piiripolitsei otsib illegaalseid narkootikume spetsiaalselt koolitatud koeraga: Kui nad kontrollivad iga kümnendat autot, võtavad nad erapooletu proovi.
Stratifitseeritud valimi võtmine
Kui populatsioonil on ilmseid alampopulatsioone, siis tuleb igast alampopulatsioonist võtta proovid. Seda nimetatakse stratifitseeritud valimiks. Kihistatud valimit nimetatakse ka kihistatud juhuvalimiks. Stratifitseeritud valimit esitatakse sageli proportsioonina, näiteks protsendina (%).
Oletame, et eksperimendi eesmärk on uurida täiskasvanute sissetulekuid. On selge, et kõrgkooli lõpetanute sissetulekud võivad erineda mitteõppijate sissetulekutest. Oletame nüüd, et kõrgkooli lõpetanud meeste arv on 30% kõigist täiskasvanud meestest (kujuteldavad arvud). Siis te korraldaksite, et 30% kogu valimist oleksid juhuslikult valitud meessoost kõrgkooli lõpetajad ja 70% kogu valimist oleksid meessoost mitte-eriala lõpetajad. Korrake seda protsessi naiste puhul, sest naissoost lõpetajate osakaal erineb meeste omast. See annab täiskasvanud elanikkonna valimi, mis on stratifitseeritud soo ja kõrghariduse järgi. Järgmine samm oleks jagada iga alampopulatsioon vanuserühmade kaupa, sest (näiteks) lõpetajad võivad keskmises eas saada rohkem sissetulekut võrreldes mitteõppijatega.
Teist tüüpi kihiline valim käsitleb varieeruvust. Siin võetakse suuremad valimid muutlikumatest alampopulatsioonidest, nii et koondstatistika, nagu keskmised ja standardhälbed, oleks usaldusväärsem.
Küsimused ja vastused
K: Mis on statistikas näidis?
V: Statistikas on valim osa üldkogumist, mis on hoolikalt valitud nii, et see esindaks kogu üldkogumit õiglaselt ja erapooletult.
K: Milleks on valimeid vaja?
V: Valimeid on vaja, sest populatsioonid võivad olla nii suured, et kõigi üksikisikute loendamine ei ole võimalik või otstarbekas. Seetõttu algab probleemi lahendamine statistikas tavaliselt valimi võtmisega.
K: Kuidas on valim esindatud?
V: Kui valimit käsitletakse andmekogumina, esitatakse seda sageli suurte tähtedega, näiteks X ja Y, kusjuures selle elemendid esitatakse väikse tähtedega (nt x3) ja valimi suurus esitatakse tähega n. Kui valimit käsitletakse andmekogumina, esitatakse seda sageli suurtähtedega.
K: Millised peaksid olema valimid?
V: Üldreeglina peavad valimid olema juhuslikud, mis tähendab, et ühe indiviidi valiku võimalus või tõenäosus on sama suur kui võimalus valida mõni teine indiviid. Praktikas võetakse juhuslikud valimid alati täpselt määratletud protseduuri abil.
K: Kas valimisse võib jääda kallutatust?
V: Isegi kui valimi moodustamiseks kasutatakse täpselt määratletud menetlusi, võib valimisse jääda mõningane kallutatus, mis tuleneb näiteks sellest, kes vastab telefonikõnedele või kes kõnnib teatud tänavatel, kui kogutakse arvamusi valimisküsitluse prognoosimiseks. Sellistel juhtudel võib olla raske saada täiesti neutraalseid valimeid, kuid statistikud saavad mõõta, kui palju kallutatust jääb alles.
K: Kas on olemas erinevaid valimeid?
V: Jah, on olemas eri liiki valimid, sealhulgas täielikud valimid, mis sisaldavad kõiki elemente, millel on antud omadused, ja erapooletud/representatiivsed valimid, mille puhul valitakse elemendid täielike valimite hulgast, sõltumata nende omadustest. Valimi moodustamise viis ja selle suurus mõjutavad seda, kuidas andmeid vaadeldakse.