Zipfi seadus on matemaatilise statistika abil sõnastatud empiiriline seadus, mis on nime saanud selle esmakordselt välja pakkunud keeleteadlase George Kingsley Zipfi järgi.

Zipfi seadus ütleb, et suure kasutatava sõnade valimi puhul on iga sõna sagedus pöördvõrdeline selle järjekohaga sagedustabelis. Seega on sõna number n sagedus võrdeline 1/n.

Praktiliselt tähendab see, et kõige sagedasem sõna esineb ligikaudu kaks korda sagedamini kui teine, kolm korda sagedamini kui kolmas jne. Näiteks ühes inglise keele sõnade valimis moodustab kõige sagedamini esinev sõna "the" peaaegu 7% kõigist sõnadest (69 971 sõna veidi üle 1 miljoni). Zipfi seaduse kohaselt moodustab teisel kohal olev sõna "of" veidi üle 3,5% sõnadest (36 411 esinemist), millele järgneb sõna "and" (28 852). Vaid umbes 135 sõna on vaja, et moodustada pool suure valimi sõnadest.

Matemaatiline kuju

Zipfi seadust saab kirjeldada täpsemalt võrdlusega:

f(r) ∝ 1 / r^s,

kus r on sõna järjekohakoht (rank), f(r) selle sagedus ja s on parameeter, mis keele puhul on sageli ligikaudu 1. Kui s = 1 ja arvestada lõpliku sõnavaru N, siis sagedused normaliseeritakse konstandiga C = 1 / H_N (H_N on N-nda harmooniline arv), ehk

f(r) = C / r.

Zipfi seadus on seega erijuht, kus langemise kiirus log-log graafikul on ligikaudu −1. Reaalses andmestikus võib s erineda järjekorrati, nii et täpsem mudel on Zipf–Mandelbrot kujul f(r) ∝ 1 / (r + q)^s, mis annab parema sobivuse tipu ja saba osas.

Põhjused ja teooriad

  • Keelte sisemine dünaamika: mõned teooriad seovad Zipfi seaduse keele efektiivsuse ja kommunikatiivsete survetega: sagedased sõnad kipuvad olema lühikesed ja kergesti ligipääsetavad (Zipfi enda arutlused).
  • Stohhastilised mudelid: Herbert A. Simon pakkus välja lihtsa kasvumudeli, kus uute üksuste (nt sõnade, firmade) tekkimine ja olemasolevate suuruste „eelistav kinnitamine“ (preferential attachment) viivad pikiastmelise (power-law) jaotuse tekkele.
  • Mandelbroti laiendus: Zipfi seaduse kohandused (nt Zipf–Mandelbrot) parandasid sobivust eriti kõrgete ja madalate ordinaatide juures.
  • Pseudo-juhuslikud mudelid: nn "monkey typing" eksperiment (juhuslik täheke ja tühikute kombineerimine) näitab, et osa zipfilikust käitumisest võib tuleneda kombinatoorsetest efektidest, kuid see ei selgita kõiki observatsioone reaalses keeles.

Rakendused ja näited ühiskonnas

Zipfi seadust ei leita üksnes keeles. Sarnane jõujoon ilmneb paljudes järjestatud jaotustes:

  • linnade rahvaarvud (suure linnade sagedushierarhia), kus Felix Auerbach 1913. aastal märkas esimesi näiteid;
  • ettevõtete suurusjärjestused ja tulujaotused;
  • perekonnanimede sagedused (teatud riikides mõningad perekonnanimed esinevad väga sageli);
  • veebilehtede külastatavus ja populaarsete sõnade/hashtagide esinemissagedused sotsiaalmeedias;
  • mõnede loodusnähtuste ja tehniliste süsteemide jaotused, kus toimib „raske saba“ ehk power-law käitumine.

Mõned piirangud ja kriitika

  • Zipfi seadus on empiiriline: see ei ole absoluutne reegel ja ei kehti täpselt kõigi korpuste või keelte puhul.
  • Väikestes või valikuliselt koostatud korpustes võib jaotus olla tugevasti kõverdatud või moonutatud (nt tekstide žanrid, morfoloogiliselt rikkad keeled).
  • Kui analüüsida ainult funktsionaalseid sõnu (artiklid, sidesõnad) vs. tähenduslikke leksikaalseid sõnu, näeb joonis eri käitumist tipus ja sabas.
  • Teooriate vahel puudub täielik konsensus – on mitu võimalikku mehhanismi, mis annavad sarnase lõpptulemuse.

Kuidas Zipfi seadust kontrollida või visualiseerida

  • Kogu suur ja mitmekesine tekstikorpus (miljon+ sõna) ning loendi sõnade esinemissagedustest.
  • Sorteeri sõnad sageduse kahanevas järjekorras ja jaga igale sõnale järjekorranumber (rank).
  • Joonista rank vs. frequency log-log skaalal — kui andmed on ligikaudu Zipfi tüüpi, peaksid need paiknema enam-vähem sirgel joonel, mille kalle on litsentsi järgi ligikaudu −1.
  • Katsed erinevate korpuste, keelereeglite ja morfoloogiliste normalisatsioonidega (lemmatiseerimine vs. vormide loendamine) aitavad mõista, kuidas andmetöötlus mõjutab tulemust.

Kokkuvõte: Zipfi seadus on lihtne, kuid võimas empiiriline tähelepanek, mis ilmneb keeles ja mitmesugustes sõnalistes ning sotsiaalsetes jaotustes. Kuigi selle täpne põhjus jääb osaliselt seletamata ja seadus ei kehti täpselt igas kontekstis, on see oluline tööriist, mis aitab kirjeldada ja modelleerida järjestatud sagedusi ning ärgitab otsima mehhanisme, mis toovad kaasa power-law käitumise.