Statistika: määratlus, meetodid ja rakendused

Statistika selgeks: määratlus, võtmemeetodid ja praktilised rakendused teaduses, meditsiinis, majanduses ning turunduses — kompaktne juhend andmete kogumiseks, analüüsiks ja tõlgendamiseks.

Autor: Leandro Alegsa

30-08-2025 17:14

Statistika on rakendusmatemaatika haru, mis tegeleb andmete kogumise, korraldamise, analüüsi, tõlgendamise ja esitamisega. Kirjeldav statistika võtab andmed kokku ja esitab neid arusaadaval kujul, kasutades tabelid, graafikuid ja kokkuvõtvaid mõõdikuid. Järelduslik statistika aitab teha prognoose ja järeldusi, hinnates, kui tõenäoline on vaatlustel põhinev tulemus ka üldkogumi kohta kehtiv. Statistika meetodid toetavad paljude teiste valdkondade, näiteks teaduse, meditsiini, majanduse, psühholoogia, poliitika ja turunduse uurimist. Statistika valdkonnas töötavat inimest nimetatakse statistikuks. Lisaks uurimisvaldkonna nimetusele viitab sõna "statistika" ka numbrilistele andmetele ja kokkuvõtetele, mida kasutatakse nähtuste kirjeldamiseks.

Peamised etapud ja meetodid

Probleemi sõnastamine: mida soovitakse teada või millist hüpoteesi testida.
Andmete kogumine: eksperimendid, vaatlused, küsitlused, andmebaasid. Oluline on valida sobiv valim ja meetod (nt juhuslik valim, kihiline valik).
Andmete puhastamine: vigaste või puuduvate väärtuste käsitlemine, andmete formaadi ühtlustamine.
Kirjeldav analüüs: kokkuvõtvate mõõdikute (keskmine, mediaan, dispersioon) ja visualiseeringute (histogramm, kastdiagramm) kasutamine andmete põhijoone nägemiseks.
Järelduslik analüüs: hüpoteeside testimine, usaldusvahemikud, regressioonianalüüs, prognoosimine ja modelleerimine.
Tõlgendamine ja esitamine: tulemuste selge selgitamine, usaldusväärtuse ja piirangute esiletoomine.

Olulised mõisted ja mõõdikud

Andmetüübid: kvantitatiivsed (numbrilised) ja kvalitatiivsed (kategoorilised) andmed.
Keskväärtused: aritmeetiline keskmine, mediaan, moode.
Hajuvus: variatsioon, dispersioon, standardhälve, percentiilid.
Seosed: korrelatsioon (näitab seose tugevust), regressioon (mõjutegurite mõju hindamine).
Järeldus: p‑väärtus, usaldusvahemik, tüüpvigu käsitlevad mõisted (I ja II tüübi vead).
Jaotused: normaaljaotus, binomiaalne, Poissoni jaotused jpm, mida kasutatakse mudelite eeldustena.

Andmete kogumise ja valimi tähtsus

Statistika tulemuste kehtivus sõltub sageli sellest, kuidas andmeid koguti. Valim peaks esindama uuritavat populatsiooni: juhuslik valim vähendab valimi kallutatust, kihiline valik tagab oluliste alamgruppide esindatuse, klastrivalim võib olla praktiline suuremate uuringute puhul. Tuleb arvestada ka võimalike kallutatustega (bias), mõõtmisvigade ja puuduvate andmetega ning neid adekvaatselt käsitleda.

Andmete visualiseerimine

Hea visualiseerimine aitab kiiresti mõista andmete põhitrende ja leide. Levinud graafikud ja tabelid on histogrammid, kastdiagrammid (boxplot), hajuvusdiagrammid (scatter plot), tulp- ja sektordiagrammid. Visualiseerimisel tuleb valida sobiv tüüp andmete iseloomu ja sihtrühma põhjal ning lisada selged sildid ja legendid.

Rakendused ja näited

Meditsiin: ravimi efektiivsuse hindamine kliinilistes uuringutes, haigestumise riskide modelleerimine.
Majandus: majanduskasvu, inflatsiooni ja töötuse analüüs; andmete põhjal tehtavad prognoosid ja poliitikasoovitused.
Turundus: klientide segmentimine, A/B testid kampaaniate efektiivsuse võrdlemiseks.
Poliitika ja sotsioloogia: küsitlusuuringud ja avaliku arvamuse mõõtmine.
Teadusuuringud: hüpoteeside testimine ja tulemuste üldistamine populatsioonile.
Kvaliteedikontroll: tootmisprotsesside jälgimine ja vigade vähendamine statistiliste protsessikontrollide abil.

Hea tava, eetika ja tööriistad

Statistika nõuab läbipaistvust: selgelt tuleb kirjeldada andmete allikat, analüüsimeetodeid ja piiranguid. Eetilised kaalutlused hõlmavad isikuandmete kaitset ja nõuetekohast tulemuste esitust (nt vältida eksitavaid järeldusi või p‑väärtuse väärkasutust). Reproduktiivsus ja andmete jagamine (kui see on võimalik) tugevdavad usaldusväärsust. Levinud tarkvarad statistilise analüüsi jaoks on R, Python (pandas, statsmodels, scikit-learn), SPSS ja Stata.

Kokkuvõttes annab statistika tööriistad ja meetodid, mis võimaldavad teha põhjendatud järeldusi andmete põhjal, eristada juhuslikke mustreid tegelikest seostest ning toetada otsuste tegemist nii teaduses kui praktilistes rakendustes.

Ajalugu

Esimene teadaolev statistika on rahvaloenduse andmed. Babüloonlased tegid rahvaloenduse umbes 3500 eKr, egiptlased umbes 2500 eKr ja vanad hiinlased umbes 1000 eKr.

Alates 16. sajandist töötasid matemaatikud, nagu Gerolamo Cardano, välja tõenäosusteooria, mis tegi statistikast teaduse. Sellest ajast alates on inimesed kogunud ja uurinud statistikat paljude asjade kohta. Puud, meritähed, tähed, kivid, sõnad, peaaegu kõik, mida saab loendada, on olnud statistika objektiks.

Andmete kogumine

Enne kui saame maailma statistika abil kirjeldada, peame koguma andmeid. Andmeid, mida me statistikas kogume, nimetatakse mõõtmisteks. Pärast andmete kogumist kasutame iga vaatluse või mõõtmise kirjeldamiseks ühte või mitut numbrit. Näiteks oletame, et soovime teada saada, kui populaarne on teatud telesaade. Me võime valida vaatajate üldkogumist välja rühma inimesi (mida nimetatakse valimiks). Seejärel küsime igalt valimisse kuuluvalt vaatajalt, kui sageli nad seda saadet vaatavad. Valim on andmed, mida te näete, ja üldkogum on andmed, mida te ei näe (kuna te ei küsinud iga vaatajat üldkogumis). Teise näitena, kui me tahame teada, kas teatav ravim aitab vererõhku alandada, võiksime anda inimestele ravimit mõneks ajaks ja mõõta nende vererõhku enne ja pärast seda.

Kirjeldav ja järeldusstatistika

Numbrid, mis kirjeldavad nähtavaid andmeid, nimetatakse kirjeldavaks statistikaks. Arvud, mis teevad ennustusi andmete kohta, mida te ei näe, nimetatakse järeldusstatistikaks.

Kirjeldav statistika hõlmab numbrite kasutamist andmete omaduste kirjeldamiseks. Näiteks naiste keskmine pikkus Ameerika Ühendriikides on kirjeldav statistika, mis kirjeldab populatsiooni (Ameerika Ühendriikide naiste) omadust (keskmine pikkus).

Kui tulemused on kokku võetud ja kirjeldatud, saab neid kasutada prognoosimiseks. Seda nimetatakse järeldusstatistikaks. Näitena võib tuua, et looma suurus sõltub paljudest teguritest. Mõnda neist teguritest kontrollib keskkond, teisi aga pärilikkus. Bioloog võib seega koostada mudeli, mis ütleb, et on suur tõenäosus, et järeltulija on väikese suurusega, kui vanemad olid väikesed. See mudel võimaldab tõenäoliselt ennustada suurust paremini, kui lihtsalt juhuslikult arvata. Testides, kas teatud ravimiga saab ravida teatud seisundit või haigust, võrreldakse tavaliselt ravimit saanud inimeste tulemusi platseebot saanud inimeste tulemustega.

Meetodid

Kõige sagedamini kogume statistilisi andmeid küsitluste või katsete abil. Näiteks arvamusküsitlus on üks uuringu liik. Me valime väikese hulga inimesi ja küsime neilt küsimusi. Seejärel kasutame nende vastuseid andmetena.

Valik, milliseid isikuid uuringusse või andmekogumisse võtta, on oluline, sest see mõjutab otseselt statistikat. Kui statistika on tehtud, ei saa enam kindlaks teha, milliseid isikuid võetakse. Oletame, et tahame mõõta suure järve vee kvaliteeti. Kui me võtame proovid heitvee äravoolu kõrval, saame teistsugused tulemused kui siis, kui proovid võetakse kaugemal, raskesti ligipääsetavas kohas järves.

Proovide võtmisel esineb tavaliselt kahte liiki probleeme:

Kui valimeid on palju, on need tõenäoliselt väga lähedased tegelikule populatsioonile. Kui aga valimeid on väga vähe, võivad need olla väga erinevad sellest, mis on tegelikus populatsioonis. Sellist viga nimetatakse juhuslikuks veaks (vt Statistika vead ja jäägid).
Proovitavate isikute valimine peab olema hoolikas, tavaliselt valitakse nad juhuslikult. Kui see ei ole nii, võivad valimid erineda väga palju üldkogumi tegelikest näitajatest. See kehtib isegi siis, kui võetakse suur hulk proove. Sellist viga nimetatakse kallutatuks.

Vead

Me saame vähendada juhuslikke vigu, kui võtame suurema valimi, ja me saame vältida mõningaid eelarvamusi, kui valime juhuslikult. Kuid mõnikord on suuri juhuslikke valimeid raske võtta. Ja kallutused võivad tekkida, kui erinevaid inimesi ei küsita või nad keelduvad meie küsimustele vastamast või kui nad teavad, et nad saavad võltsitud ravi. Neid probleeme võib olla raske lahendada. Vt ka standardviga.

Kirjeldav statistika

Andmete keskpaiga leidmine

Andmete keskmist nimetatakse keskmiseks. Keskmine annab meile teavet populatsiooni tüüpilise indiviidi kohta. Sageli kasutatakse kolme liiki keskmist: keskmist, mediaani ja moodi.

Allpool toodud näidetes kasutatakse neid näidisandmeid:

Nimi | A B C D E F G H I J --------------------------------------------- skoor| 23 26 49 49 49 57 64 66 78 82 92

Keskmine

Keskmine valem on järgmine

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}} ${\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}$

Kus x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}} $x_{1},x_{2},\ldots ,x_{N}$ on andmed ja N {\displaystyle N} $N$ on populatsiooni suurus. (vt Sigma märkimine).

See tähendab, et liidate kõik väärtused kokku ja jagate seejärel väärtuste arvuga.

Meie näites x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {\displaystyle {\bar {x}}=(23+26+49+49+49+57+64+66+78+82+92)/10=58.6} ${\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6$

Keskmise väärtuse probleem seisneb selles, et see ei ütle midagi selle kohta, kuidas väärtused on jaotunud. Väga suured või väga väikesed väärtused muudavad keskmist palju. Statistikas võivad need äärmuslikud väärtused olla mõõtmisvead, kuid mõnikord sisaldab populatsioon tõesti selliseid väärtusi. Näiteks kui ruumis on 10 inimest, kes teenivad 10 dollarit päevas ja 1, kes teenib 1 000 000 dollarit päevas. Andmete keskmine on 90 918 $/päevas. Kuigi see on keskmine summa, ei ole keskmine sel juhul summa, mida ükskõik milline üksik inimene teenib, seega on see mõnel eesmärgil kasutu.

See on "aritmeetiline keskmine". Teatud eesmärkidel on kasulikud ka muud liiki keskmised.

Mediaan

Mediaan on andmete keskmine element. Mediaani leidmiseks sorteerime andmed väikseimast numbrist suurima numbrini ja valime seejärel keskmise numbri. Kui andmeid on paariline arv, siis ei ole ühtki numbrit otse keskel, seega valime kaks keskmist ja arvutame nende keskmise. Meie näites on andmeid 10, kaks keskmist on "57" ja "64", seega on mediaan (57+64)/2 = 60,5. Teine näide, nagu sissetulekute puhul esitatud näide keskmise kohta, vaadelda ruumi, kus on 10 inimest, kelle sissetulekud on 10, 20, 20, 40, 50, 60, 90, 90, 100 ja 1 000 000 dollarit, mediaan on 55 dollarit, sest 55 dollarit on kahe keskmise numbri, 50 ja 60 dollari, keskmine. Kui äärmuslik väärtus 1 000 000 dollarit eirata, on keskmine 53 dollarit. Sel juhul on mediaan lähedane väärtusele, mis saadakse, kui äärmuslik väärtus kõrvale jätta. Mediaan lahendab ekstreemväärtuste probleemi, nagu on kirjeldatud eespool keskmise määratluses.

Režiim

Režiim on kõige sagedamini esinev andmeühik. Näiteks inglise keeles on kõige sagedasem täht "e". Me ütleme, et "e" on tähtede jaotuse mood.

Näiteks kui ruumis on 10 inimest, kelle sissetulekud on 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 ja 1 000 000 dollarit, siis on režiimiks 90 dollarit, sest 90 dollarit esineb kolm korda ja kõik teised väärtused esinevad vähem kui kolm korda.

Režiime võib olla rohkem kui üks. Näiteks kui ruumis on 10 inimest, kelle sissetulekud on 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 100 ja 1 000 000 dollarit, siis on režiimid 20 ja 90 dollarit. See on bimodaalne ehk sellel on kaks režiimi. Bimodaalsus on väga levinud ja näitab sageli, et andmed on kahe erineva rühma kombinatsioon. Näiteks kõigi täiskasvanute keskmine pikkus USAs on bimodaalse jaotusega. See tuleneb sellest, et meeste ja naiste keskmine pikkus on eraldi: 1,763 m (5 ft 9 + 1⁄2 in) meestel ja 1,622 m (5 ft 4 in) naistel. Need tipud ilmnevad, kui mõlemad rühmad kombineeritakse.

Režiim on ainus keskmise vorm, mida saab kasutada andmete puhul, mida ei saa järjestada.

Andmete leviku leidmine

Teine asi, mida me saame andmekogumi kohta öelda, on see, kui hajutatud see on. Üldine viis andmekogumi hajuvuse kirjeldamiseks on standardhälve. Kui andmekogumi standardhälve on väike, siis on enamik andmeid väga lähedal keskmisele. Kui aga standardhälve on suur, siis on suur osa andmetest keskmisest väga erinev.

Kui andmed järgivad üldist mustrit, mida nimetatakse normaaljaotuseks, siis on väga kasulik teada standardhälvet. Kui andmed järgivad seda mustrit (ütleme, et andmed on normaaljaotusega), siis umbes 68 andmestikku 100-st erineb keskmisest vähem kui standardhälve võrra. Ja mitte ainult see, vaid umbes 95 igast 100 mõõtmisandmest kaldub keskmisest kõrvale vähem kui kaks korda standardhälbe võrra ja umbes 997 mõõtmisandmest 1000-st on keskmisele lähemal kui kolm standardhälvet.

Muu kirjeldav statistika

Me võime kasutada statistikat ka selleks, et teada saada, et mingi protsent, protsentiil, arv või murdosa inimestest või asjadest mingis rühmas teeb midagi või kuulub teatud kategooriasse.

Näiteks kasutasid sotsiaalteadlased statistikat, et 49% maailma inimestest on mehed.

Seotud tarkvara

Statistikute toetamiseks on välja töötatud palju statistikatarkvara:

SAS Instituut
SPSS (IBMi poolt)

Küsimused ja vastused

K: Mis on statistika?

V: Statistika on rakendusmatemaatika haru, mis tegeleb andmete kogumise, korrastamise, analüüsimise, lugemise ja esitamisega.

K: Millised on statistika kaks liiki?

V: Statistika kaks liiki on kirjeldav ja järelduslik statistika. Kirjeldav statistika teeb andmete kohta kokkuvõtteid, samas kui järelduslik statistika teeb prognoose.

K: Kuidas aitab statistika teistes valdkondades?

V: Statistika aitab paljude teiste valdkondade, näiteks teaduse, meditsiini, majanduse, psühholoogia, poliitika ja turunduse uurimisel.

K: Kes töötavad statistika valdkonnas?

V: Kedagi, kes töötab statistika valdkonnas, nimetatakse statistikuks.

K: Mida tähendab sõna "statistika"?

V: Lisaks sellele, et sõna "statistika" on valdkonna nimetus, võib see tähendada ka numbreid, mida kasutatakse andmete või seoste kirjeldamiseks.

K: Milliste tegevustega tegelevad statistikud?

V: Statistikud tegelevad selliste tegevustega nagu andmete kogumine, korrastamine, analüüsimine, lugemine ja esitamine.

Otsige