Sagedusjaotus statistikas: määratlus, sagedustabelid ja histogrammid

Õpi sagedusjaotuse, sagedustabelite ja histogrammide mõisted ning praktilised näited — selged juhised andmete rühmitamiseks ja visualiseerimiseks statistikasse.

Statistikas on sagedusjaotus loetelu väärtustest, mida muutuja võtab valimis. Tavaliselt on see loetelu, mis on järjestatud koguse ehk sageduse järgi, ja see näitab, mitu korda iga väärtus esineb. Näiteks, kui 100 inimest hindavad viiepallisel Likert’i skaalal oma nõustumist väitega (kus 1 tähistab tugevat nõustumist ja 5 tugevat mittenõustumist), võib nende vastuste sagedusjaotus välja näha järgmiselt:

  • 1: 15
  • 2: 20
  • 3: 30
  • 4: 25
  • 5: 10

Selle lihtsa diskreetse näite puhul on iga võimalik väärtus loetletud eraldi. Kuid tabelil on kaks piirangut. Kui muutuja võib diskreetsete väärtuste asemel võtta pidevaid väärtusi või kui võimalike väärtuste arv on väga suur, muutub igat üksikut väärtust loetleda ja tähistada keeruliseks või otstarbetuks. Sellistel juhtudel kasutatakse väärtuste rühmitamist ehk vahemikel põhinevaid sagedustabeleid ja visualiseerimiseks histogramme.

Diskreetne vs pidev muutuja ja rühmitamine

Diskreetse muutuja puhul (nt Likert-vastused, arvu kujul loetavad kategooriad) kirjeldatakse sagedusi iga üksiku väärtuse kohta. Pideva muutuja (nt pikkus, kaal, temperatuur) puhul jaotatakse väärtused tavaliselt vahemike ehk klasside järgi, näiteks 150–159 cm, 160–169 cm jne. Iga klassi puhul loendatakse, mitu vaatlust sinna langeb.

Näide klassipõhisest sagedustabelist (õpilaste pikkus):

  • 150–159 cm: 4
  • 160–169 cm: 12
  • 170–179 cm: 20
  • 180–189 cm: 10

Sagedustabeli olulised komponendid

  • Absoluutne sagedus (f) — üleslugemine, mitu üksust kuulub igasse väärtusesse või klassi.
  • Relatiivne sagedus — sageduse jagatis kogu vaatlustearvuga (f / n), sageli väljendatud protsentides; näitab protsentuaalset jaotust.
  • Kumulatiivne sagedus — järjestikuste klasside kokkulugemine, näitab, mitu vaatlust jääb antud piiri või selle alla.
  • Tihedus — kui klasside laiused erinevad, kasutatakse sageduse asemel sagedustiheduse (f / klassi laius), et histogrammi alade abil võrrelda.

Histogrammid ja nende tõlgendamine

Histogramm on tulpdiagramm, kus iga tulp esindab klassi ja tulpude pindalad (või kõrgused, kui klassilaiused on võrdsed) on proportsionaalsed klassi sagedusega. Histogramm sobib pidevate andmete visualiseerimiseks ja aitab näha jaotuse kuju (nt sümmeetriline, kaldus paremale või vasakule, mitmetippuline).

Erinevus tavalise tulbadiagrammi ja histogrammi vahel: tulbadiagramm on mõeldud diskreetsete kategooriate võrdlemiseks (püsi-eraldisega kategooriad), histogramm aga näitab pideva muutuja jaotust, kus tulbad puutuvad sageli kokku (ilma vahedega) ja esindavad vahemikke.

Praktilised nõuanded ja sagedusrühmade valik

  • Rühmade (klasside) arv mõjutab jaotuse kuju — liiga palju klasse teeb histogrammi kärmeks ja mürarikkaks, liiga vähe peidab detaile.
  • Sagedaseks reegliks loetakse näiteks Sturges’i reeglit: optimaalne klasside arv ≈ 1 + log2(n), kus n on vaatlustearv (see on juhend, mitte reegel).
  • Kui klassilaiused erinevad, kasutage sagedustiheduse skaalat (sagedus / laius), et alade põhjal võrrelda ribasid.
  • Kumulatiivsed histogrammid ehk ogiivid on kasulikud kvartiilide ja mediaani määramiseks ning vaatluste protsendilise jaotuse näitamiseks kuni mingini väärtuseni.
  • Kontrolli alati, kas klassipiirid on kattuvad või teineteist välistavad (soovitav on kasutada sulgude/harilike piiride kokkulepet), ja märkida selgelt andmete koguse (n) suurus.

Sellel põhjal on sagedusjaotused ja histogrammid tugevad tööriistad andmete ülevaatlikuks kokkuvõtmiseks ja jaotuse kuju hindamiseks — olgu tegemist diskreetsete kategooriatega või pidevate mõõtmistega. Rühmitamise ja visualiseerimise valik sõltub eesmärgist: üldpildi saamiseks sobib laiem rühmitus, detailide uurimiseks kitsam.

Näide (absoluutse) sagedusjaotuse kohta. See on Angola rahvastikupüramiid 2005. aasta kohta.Zoom
Näide (absoluutse) sagedusjaotuse kohta. See on Angola rahvastikupüramiid 2005. aasta kohta.

See on Hiina rahvastikupüramiid 2005. aastal.Zoom
See on Hiina rahvastikupüramiid 2005. aastal.

Rakendused

Sagedustabelis olevate andmete haldamine ja nendega töötamine on palju lihtsam kui töötlemata andmetega töötamine. Nende tabelite põhjal on olemas lihtsad algoritmid mediaani, keskväärtuse (statistika), standardhälbe jne arvutamiseks.

Statistiline hüpoteeside testimine põhineb sagedusjaotuste erinevuste ja sarnasuste hindamisel. See hindamine hõlmab kesktendentsuse või keskmiste, nagu keskmine ja mediaan, ning varieeruvuse või statistilise hajuvuse, nagu standardhälve või dispersioon, mõõdikuid.

Sagedusjaotust nimetatakse kallutatuks, kui selle keskmine ja mediaan on erinevad. Sagedusjaotuse kurtoos on punktide kontsentratsioon keskväärtuse juures või see, kui kõrge on jaotus, kui seda graafiliselt kujutada - näiteks histogrammis. Kui jaotus on normaaljaotusest kõrgema tipuga, nimetatakse seda leptokurtiliseks; kui see on vähem kõrgema tipuga, nimetatakse seda platükurtiliseks.

Sagedusjaotusi kasutatakse ka sagedusanalüüsis koodide murdmiseks ja need viitavad tähtede suhtelisele sagedusele erinevates keeltes.

Küsimused ja vastused

K: Mis on sagedusjaotus?


V: Sagedusjaotus on loetelu väärtustest, mida muutuja võtab valimis, järjestatuna koguse järgi. See näitab, mitu korda iga väärtus esineb.

K: Kuidas võiks välja näha viiepallisele Likerti skaalale antud vastuste sagedusjaotus?


V: Viiepallisele Likert'i skaalale antud vastuste sagedusjaotus võib välja näha lihtsa tabelina, mis näitab iga punkti skaalal hinnanud inimeste arvu.

K: Millised on kaks puudust sellist tüüpi tabeli kasutamisel?


V: Kaks puudust seda tüüpi tabeli kasutamisel on see, et see võib olla keeruline või isegi võimatu, kui tegemist on pidevate väärtustega või kui võimalikke väärtusi on liiga palju.

K: Kuidas erineb see skeem, kui tegemist on pidevate väärtuste või suure hulga võimalike väärtustega?


V: Pidevate väärtuste või suure hulga võimalike väärtuste puhul võib kasutada hoopis veidi teistsugust skeemi, mis põhineb väärtuste vahemikul.

K: Kuidas võiks välja näha õpilaste kõrguste sagedustabel?


V: Õpilaste pikkuste sagedustabelis võiks näidata vahemikke ja seda, kui palju õpilasi kuulub igasse vahemikku.


K: Millist teavet annab sagedusjaotus?


V: Sagedusjaotus annab teavet selle kohta, kui sageli teatavad muutujad valimis esinevad ja kuidas nad on valimis jaotunud.

AlegsaOnline.com - 2020 / 2025 - License CC3