Statistika
Statistika on rakendusmatemaatika haru, mis tegeleb andmete kogumise, korraldamise, analüüsi, tõlgendamise ja esitamisega. Kirjeldav statistika võtab andmed kokku. Järelduslik statistika teeb prognoose. Statistika aitab paljude teiste valdkondade, näiteks teaduse, meditsiini, majanduse, psühholoogia, poliitika ja turunduse uurimisel. Statistika valdkonnas töötavat inimest nimetatakse statistikuks. Lisaks sellele, et sõna "statistika" on uurimisvaldkonna nimetus, viitab see ka numbritele, mida kasutatakse andmete või seoste kirjeldamiseks.
Ajalugu
Esimene teadaolev statistika on rahvaloenduse andmed. Babüloonlased tegid rahvaloenduse umbes 3500 eKr, egiptlased umbes 2500 eKr ja vanad hiinlased umbes 1000 eKr.
Alates 16. sajandist töötasid matemaatikud, nagu Gerolamo Cardano, välja tõenäosusteooria, mis tegi statistikast teaduse. Sellest ajast alates on inimesed kogunud ja uurinud statistikat paljude asjade kohta. Puud, meritähed, tähed, kivid, sõnad, peaaegu kõik, mida saab loendada, on olnud statistika objektiks.
Andmete kogumine
Enne kui saame maailma statistika abil kirjeldada, peame koguma andmeid. Andmeid, mida me statistikas kogume, nimetatakse mõõtmisteks. Pärast andmete kogumist kasutame iga vaatluse või mõõtmise kirjeldamiseks ühte või mitut numbrit. Näiteks oletame, et soovime teada saada, kui populaarne on teatud telesaade. Me võime valida vaatajate üldkogumist välja rühma inimesi (mida nimetatakse valimiks). Seejärel küsime igalt valimisse kuuluvalt vaatajalt, kui sageli nad seda saadet vaatavad. Valim on andmed, mida te näete, ja üldkogum on andmed, mida te ei näe (kuna te ei küsinud iga vaatajat üldkogumis). Teise näitena, kui me tahame teada, kas teatav ravim aitab vererõhku alandada, võiksime anda inimestele ravimit mõneks ajaks ja mõõta nende vererõhku enne ja pärast seda.
Kirjeldav ja järeldusstatistika
Numbrid, mis kirjeldavad nähtavaid andmeid, nimetatakse kirjeldavaks statistikaks. Arvud, mis teevad ennustusi andmete kohta, mida te ei näe, nimetatakse järeldusstatistikaks.
Kirjeldav statistika hõlmab numbrite kasutamist andmete omaduste kirjeldamiseks. Näiteks naiste keskmine pikkus Ameerika Ühendriikides on kirjeldav statistika, mis kirjeldab populatsiooni (Ameerika Ühendriikide naiste) omadust (keskmine pikkus).
Kui tulemused on kokku võetud ja kirjeldatud, saab neid kasutada prognoosimiseks. Seda nimetatakse järeldusstatistikaks. Näitena võib tuua, et looma suurus sõltub paljudest teguritest. Mõnda neist teguritest kontrollib keskkond, teisi aga pärilikkus. Bioloog võib seega koostada mudeli, mis ütleb, et on suur tõenäosus, et järeltulija on väikese suurusega, kui vanemad olid väikesed. See mudel võimaldab tõenäoliselt ennustada suurust paremini, kui lihtsalt juhuslikult arvata. Testides, kas teatud ravimiga saab ravida teatud seisundit või haigust, võrreldakse tavaliselt ravimit saanud inimeste tulemusi platseebot saanud inimeste tulemustega.
Meetodid
Kõige sagedamini kogume statistilisi andmeid küsitluste või katsete abil. Näiteks arvamusküsitlus on üks uuringu liik. Me valime väikese hulga inimesi ja küsime neilt küsimusi. Seejärel kasutame nende vastuseid andmetena.
Valik, milliseid isikuid uuringusse või andmekogumisse võtta, on oluline, sest see mõjutab otseselt statistikat. Kui statistika on tehtud, ei saa enam kindlaks teha, milliseid isikuid võetakse. Oletame, et tahame mõõta suure järve vee kvaliteeti. Kui me võtame proovid heitvee äravoolu kõrval, saame teistsugused tulemused kui siis, kui proovid võetakse kaugemal, raskesti ligipääsetavas kohas järves.
Proovide võtmisel esineb tavaliselt kahte liiki probleeme:
- Kui valimeid on palju, on need tõenäoliselt väga lähedased tegelikule populatsioonile. Kui aga valimeid on väga vähe, võivad need olla väga erinevad sellest, mis on tegelikus populatsioonis. Sellist viga nimetatakse juhuslikuks veaks (vt Statistika vead ja jäägid).
- Proovitavate isikute valimine peab olema hoolikas, tavaliselt valitakse nad juhuslikult. Kui see ei ole nii, võivad valimid erineda väga palju üldkogumi tegelikest näitajatest. See kehtib isegi siis, kui võetakse suur hulk proove. Sellist viga nimetatakse kallutatuks.
Vead
Me saame vähendada juhuslikke vigu, kui võtame suurema valimi, ja me saame vältida mõningaid eelarvamusi, kui valime juhuslikult. Kuid mõnikord on suuri juhuslikke valimeid raske võtta. Ja kallutused võivad tekkida, kui erinevaid inimesi ei küsita või nad keelduvad meie küsimustele vastamast või kui nad teavad, et nad saavad võltsitud ravi. Neid probleeme võib olla raske lahendada. Vt ka standardviga.
Kirjeldav statistika
Andmete keskpaiga leidmine
Andmete keskmist nimetatakse keskmiseks. Keskmine annab meile teavet populatsiooni tüüpilise indiviidi kohta. Sageli kasutatakse kolme liiki keskmist: keskmist, mediaani ja moodi.
Allpool toodud näidetes kasutatakse neid näidisandmeid:
Nimi | A B C D E F G H I J --------------------------------------------- skoor| 23 26 49 49 49 57 64 66 78 82 92Keskmine
Keskmine valem on järgmine
x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}}
Kus x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}} on andmed ja N {\displaystyle N} on populatsiooni suurus. (vt Sigma märkimine).
See tähendab, et liidate kõik väärtused kokku ja jagate seejärel väärtuste arvuga.
Meie näites x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {\displaystyle {\bar {x}}=(23+26+49+49+49+57+64+66+78+82+92)/10=58.6}
Keskmise väärtuse probleem seisneb selles, et see ei ütle midagi selle kohta, kuidas väärtused on jaotunud. Väga suured või väga väikesed väärtused muudavad keskmist palju. Statistikas võivad need äärmuslikud väärtused olla mõõtmisvead, kuid mõnikord sisaldab populatsioon tõesti selliseid väärtusi. Näiteks kui ruumis on 10 inimest, kes teenivad 10 dollarit päevas ja 1, kes teenib 1 000 000 dollarit päevas. Andmete keskmine on 90 918 $/päevas. Kuigi see on keskmine summa, ei ole keskmine sel juhul summa, mida ükskõik milline üksik inimene teenib, seega on see mõnel eesmärgil kasutu.
See on "aritmeetiline keskmine". Teatud eesmärkidel on kasulikud ka muud liiki keskmised.
Mediaan
Mediaan on andmete keskmine element. Mediaani leidmiseks sorteerime andmed väikseimast numbrist suurima numbrini ja valime seejärel keskmise numbri. Kui andmeid on paariline arv, siis ei ole ühtki numbrit otse keskel, seega valime kaks keskmist ja arvutame nende keskmise. Meie näites on andmeid 10, kaks keskmist on "57" ja "64", seega on mediaan (57+64)/2 = 60,5. Teine näide, nagu sissetulekute puhul esitatud näide keskmise kohta, vaadelda ruumi, kus on 10 inimest, kelle sissetulekud on 10, 20, 20, 40, 50, 60, 90, 90, 100 ja 1 000 000 dollarit, mediaan on 55 dollarit, sest 55 dollarit on kahe keskmise numbri, 50 ja 60 dollari, keskmine. Kui äärmuslik väärtus 1 000 000 dollarit eirata, on keskmine 53 dollarit. Sel juhul on mediaan lähedane väärtusele, mis saadakse, kui äärmuslik väärtus kõrvale jätta. Mediaan lahendab ekstreemväärtuste probleemi, nagu on kirjeldatud eespool keskmise määratluses.
Režiim
Režiim on kõige sagedamini esinev andmeühik. Näiteks inglise keeles on kõige sagedasem täht "e". Me ütleme, et "e" on tähtede jaotuse mood.
Näiteks kui ruumis on 10 inimest, kelle sissetulekud on 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 ja 1 000 000 dollarit, siis on režiimiks 90 dollarit, sest 90 dollarit esineb kolm korda ja kõik teised väärtused esinevad vähem kui kolm korda.
Režiime võib olla rohkem kui üks. Näiteks kui ruumis on 10 inimest, kelle sissetulekud on 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 100 ja 1 000 000 dollarit, siis on režiimid 20 ja 90 dollarit. See on bimodaalne ehk sellel on kaks režiimi. Bimodaalsus on väga levinud ja näitab sageli, et andmed on kahe erineva rühma kombinatsioon. Näiteks kõigi täiskasvanute keskmine pikkus USAs on bimodaalse jaotusega. See tuleneb sellest, et meeste ja naiste keskmine pikkus on eraldi: 1,763 m (5 ft 9 + 1⁄2 in) meestel ja 1,622 m (5 ft 4 in) naistel. Need tipud ilmnevad, kui mõlemad rühmad kombineeritakse.
Režiim on ainus keskmise vorm, mida saab kasutada andmete puhul, mida ei saa järjestada.
Andmete leviku leidmine
Teine asi, mida me saame andmekogumi kohta öelda, on see, kui hajutatud see on. Üldine viis andmekogumi hajuvuse kirjeldamiseks on standardhälve. Kui andmekogumi standardhälve on väike, siis on enamik andmeid väga lähedal keskmisele. Kui aga standardhälve on suur, siis on suur osa andmetest keskmisest väga erinev.
Kui andmed järgivad üldist mustrit, mida nimetatakse normaaljaotuseks, siis on väga kasulik teada standardhälvet. Kui andmed järgivad seda mustrit (ütleme, et andmed on normaaljaotusega), siis umbes 68 andmestikku 100-st erineb keskmisest vähem kui standardhälve võrra. Ja mitte ainult see, vaid umbes 95 igast 100 mõõtmisandmest kaldub keskmisest kõrvale vähem kui kaks korda standardhälbe võrra ja umbes 997 mõõtmisandmest 1000-st on keskmisele lähemal kui kolm standardhälvet.
Muu kirjeldav statistika
Me võime kasutada statistikat ka selleks, et teada saada, et mingi protsent, protsentiil, arv või murdosa inimestest või asjadest mingis rühmas teeb midagi või kuulub teatud kategooriasse.
Näiteks kasutasid sotsiaalteadlased statistikat, et 49% maailma inimestest on mehed.
Seotud tarkvara
Statistikute toetamiseks on välja töötatud palju statistikatarkvara:
- SAS Instituut
- SPSS (IBMi poolt)
Küsimused ja vastused
K: Mis on statistika?
V: Statistika on rakendusmatemaatika haru, mis tegeleb andmete kogumise, korrastamise, analüüsimise, lugemise ja esitamisega.
K: Millised on statistika kaks liiki?
V: Statistika kaks liiki on kirjeldav ja järelduslik statistika. Kirjeldav statistika teeb andmete kohta kokkuvõtteid, samas kui järelduslik statistika teeb prognoose.
K: Kuidas aitab statistika teistes valdkondades?
V: Statistika aitab paljude teiste valdkondade, näiteks teaduse, meditsiini, majanduse, psühholoogia, poliitika ja turunduse uurimisel.
K: Kes töötavad statistika valdkonnas?
V: Kedagi, kes töötab statistika valdkonnas, nimetatakse statistikuks.
K: Mida tähendab sõna "statistika"?
V: Lisaks sellele, et sõna "statistika" on valdkonna nimetus, võib see tähendada ka numbreid, mida kasutatakse andmete või seoste kirjeldamiseks.
K: Milliste tegevustega tegelevad statistikud?
V: Statistikud tegelevad selliste tegevustega nagu andmete kogumine, korrastamine, analüüsimine, lugemine ja esitamine.