Histogramm statistikas: definitsioon, näide ja andmete jaotuse tõlgendus
Histogramm on statistika mõiste. See on graafiline kujutis, mis annab teavet valimi või mõõtmiste jaotuse kohta. Histogramm kujutab tavaliselt andmeid kategooriate ehk klasside kaupa: x-teljel on väärtuste vahemikud (nn kastid või binid) ja y-teljel nende klasside sagedused või suhtelised sagedused. Tabelis on kirjas, mitu vaatluspunkti kuulub igasse kategooriasse, ning histogramm visualiseerib seda teavet.
Sõna histogramm tuleneb kreeka keeles sõnadest histos ja gramma. Histos tähendab algselt „võrku” või „masti” ja gramma „joonistust”, „salvestust” või „kirjutamist”. Etümoloogiliselt võib seda tõlgendada kui mingi nähtuse „võrgu” ehk skeemi joonistust.
Kuidas histogrammi koostada
- Vali muutuja: histogramm sobib nii pidevate kui ka suurte diskreetsete andmete puhul.
- Määra andmete vahemik: leia min ja max väärtus ning otsusta, missuguseks vahemikuks histogrammi joonistad.
- Jaga vahemik klassideks (bin'ideks): vali klasside arv või klasside laius. Klassid peavad olema katmata ja järjestatud (näiteks 40–49, 50–59 jne).
- Lõpuks loenda sagedused: igasse klassi kuuluvate vaatluste arv annab selle klassi kõrguse. Soovi korral teisenda sagedused suhtelisteks sagedusteks (protsent või tõenäosus).
- Joonista: joonisel esitatakse ristkülikud, kus iga ristküliku kõrgus vastab klassi sagedusele (või tihedusele). Kui klasside laius pole ühtlane, kasutatakse sageduse asemel tihedust (sagedus jagatud klassi laiusega), sest histogrammi ala peab andma adekvaatse tõenäosuse.
Näide
Oletame eksami tulemused (20 õpilast): 45, 48, 52, 55, 57, 60, 62, 65, 67, 70, 72, 73, 75, 78, 80, 82, 85, 88, 90, 95. Jaotame need 10-punktilistesse klassidesse:
- 40–49: 2 õpilast
- 50–59: 3 õpilast
- 60–69: 4 õpilast
- 70–79: 5 õpilast
- 80–89: 4 õpilast
- 90–99: 2 õpilast
Histogrammil on selgelt näha mode ehk kõige sagedasem klass 70–79. Suhtelised sagedused oleksid vastavalt 0,10; 0,15; 0,20; 0,25; 0,20; 0,10 (sagedus jagatud 20-ga). Kui klasside laius oleks ebavõrdne, tuleks kujundada histogramm nii, et iga ristküliku pindala (kõrgus × laius) kajastaks vaatlusosa protsenti kogu andmestikust.
Andmete jaotuse tõlgendus
- Keskmine ja α: histogramm aitab hinnata, kus andmed keskenduvad (tõenäolise keskmise piirkond).
- Kõveruse kuju: andmete jaotuse kuju võib olla sümmeetriline (näiteks normaaljaotus), paremale kaldus (positiivne skews; suurte väärtuste saba paremal), vasakule kaldus (negatiivne skews) või bimodaalne (kaks selget tipu — osutab tavaliselt kahe alamrühma olemasolule).
- Häälestus ja väljalangejad: välja paistvad üksikud väärtused (outlierid) või tühjad alad võivad viidata mõõte- või sisendvigadele või andmete heterogeensusele.
- Tihedus vs sagedus: kui histogramm kuvab tihedust (density), siis ristkülikute pindalade summa annab kogu tõenäosuse (1 ehk 100%).
Erinevus tulbagrammi ja histogrammi vahel
Kuigi histogramm sarnaneb tulbagrammiga (bar chart), on neil oluline erinevus: tulbagramm on mõeldud kategooriliste (diskreetsete, mittesorditavate) muutujate jaoks ja ribadelt on vahel tavaliselt tühimikud. Histogramm aga kujutab järjestatud, pidevaid või järjestatud diskreetseid muutujaväärtusi ning ribade vahel tühimikku ei ole — ribad on ühineva äärega, et rõhutada vahemikke.
Kasutusalad ja piirangud
- Kasutusalad: kirjeldav statistika, esmane andmeanalüüs, normaaljaotuse eelduste kontroll, andmete visualiseerimine ja andmete kvaliteedi kontroll.
- Piirangud: histogrammi kuju sõltub tugevalt klasside arvust ja laiusest — erinev valik võib anda erineva mulje jaotuse kohta. Lisaks võib peene ühe-mõõtmelise visualiseerimise tõttu kaotsi minna info mitmemõõtmeliste seoste kohta.
- Nõuanded klassi laiuse valimiseks: lihtsad reeglid on Sturges’ reegel (kui andmemaht pole väga suur), ruutjuure reegel (kui soovid lihtsat lähenemist) ja Freedman–Diaconis’ reegel (kasutab interkvartiilvahemikku IQR ja annab tihedusetundliku binilaiuse). Freedman–Diaconis’ reeglil on valem binilaiuse h ≈ 2·IQR·n^(−1/3).
Praktiliselt saab histogramme kiiresti luua tarkvaras (nt Excel, R funktsiooniga hist(), Pythonis matplotlib.pyplot.hist), kuid alati tuleks hinnata, kas klasside jagunemine ja skaalad annavad tõepärase pildi andmestikust ning kas on vaja täiendavat normaliseerimist või tihedusarvutust.
Kokkuvõttes on histogramm lihtne ja tõhus vahend andmete jaotuse esialgseks uurimiseks: see näitab andmete keskpunkti, hajuvust, võimalikku kaldumist ja mitmetipulisust ning aitab otsustada edasiste analüüside (nt statistiliste testide või modelleerimise) vajaduse üle.


Näide 100 normaalselt jaotunud juhusliku väärtuse histogrammi kohta
Sarnased ideed
Histogramm on üks seitsmest kvaliteedikontrolli põhivahenditest, mille hulka kuuluvad ka Paretodiagramm, kontroll-leht, kontrollkaart, põhjus-tagajärg diagramm, vooskeem ja hajuvusdiagramm.
Histogrammi üldistus on kerneli silumise tehnika. See konstrueerib esitatud andmete põhjal sileda tõenäosustiheduse funktsiooni.
Küsimused ja vastused
K: Mis on histogramm?
V: Histogramm on graafiline kujutis, mis annab meile teavet asjaomaste valimite jaotuse kohta.
K: Mis on histogrammi eesmärk?
V: Histogrammi eesmärk on näidata asjaomaste valimite jaotust.
K: Mida tähendab sõna histogramm?
V: Sõna histogramm tuleneb kreeka keeles sõnadest histos ja gramma. Histos tähendab võrku või masti. Gramma tähendab joonistust, kirja või kirja.
K: Mida tähendab mõiste "histos" kreeka keeles?
V: Mõiste "histos" tähendab kreeka keeles võrku või masti.
K: Mida tähendab kreeka keeles mõiste "gramma"?
V: Mõiste "gramma" tähendab kreeka keeles joonistust, kirja või kirja.
K: Mis on histogrammi ühine tunnus?
V: Histogrammi ühiseks tunnuseks on paljude kategooriatega tabelist tehtud pilt.
K: Millist teavet annab histogrammi tabel?
V: Histogrammi tabel annab teavet selle kohta, mitu proovi on igas kategoorias.