Corpus (ladina "keha", mitmuses corpora) — tähendused ja kasutusalad

Avasta 'corpus' (mitm. corpora) tähendused ja kasutusalad — kehad, tekstikorpused ning terminoloogia eri valdkondades. Selgitused, näited ja praktilised rakendused.

Autor: Leandro Alegsa

Corpus (mitmuses corpora) on ladina keeles keha. See võib tähendada:

  • Füsioloogiline või anatoomiline tähendus — keha või kehaosa, näiteks corpus callosum (ajupõim), corpus luteum (munasarja kollakeha) või corpora cavernosa (peenise seenkorpused). Selles tähenduses kasutatakse sõna sageli meditsiinilistes ja bioloogilistes terminites, kus corpus viitab peamisele kehale või struktuurile mingi organi või struktuuri sees.
  • Õiguslik ja kriminaalistikaga seotud tähendus — fraas corpus delicti tähendab otsesõnu „kuriteo keha” ehk kriminaalset asjaolu või füüsilist tõendit, mis näitab, et kuritegu on aset leidnud. Õiguskeeles võib „corpus” varasemalt viidata ka isikule või kehale (nt surnukeha) kui tõendusmaterjalile.
  • Keeltekorpus ehk tekstikogu (lingvistika ja arvutikeel) — korpus on struktureeritud tekstide kogum, mida kasutatakse keeleteaduslikuks uurimiseks ja arvutipõhiseks töötlemiseks. Korpused võivad olla:
    • monolingvaalsed või multilingvaalsed (paralleelsed ja võrreldavad korpused),
    • kirjalikud või suulised,
    • diachronilised (ajakohaga muutuste uurimiseks) või synchronilised (mingi ajahetke keeleseisundi uurimiseks),
    • üldotstarbelised (balanced) või spetsialiseeritud (nt meditsiinitekstide korpus).
  • Andme- ja arvutiteaduses — „corpus” võib tähendada suurt andmekogumit (dataset), mida kasutatakse masinõppe, tekstitöötluse või andmeanalüüsi treeningandmetena. Näiteks koodi-korpus (code corpus) tarkvaraanalüüsiks või piltide ja märgendite kogum arvutinägemise jaoks.
  • Kollektsioon või kogu (humanitaarteadused, muusikoloogia, filoloogia) — „corpus” võib tähendada autori või teema kogu väljaantud teoseid (nt „corpus of works”), toimetatud väljaandeid või digiteeritud arhiivi uurimisel kasutamiseks.

Korpuste tüübid ja omadused keeleteaduses

  • Annotatsioon — efektsemad korpused on märgistatud morfoloogia, sõnaliigi (POS), loobumise (lemmatiseerimine), süntaksilise struktuuri või semantiliste tunnustega. Annotatsioon võimaldab täpset päringut ja kvantitatiivset analüüsi.
  • Metaandmed — tekstide päritolu, kuupäev, žanr, autor, registreerimistingimused jt andmed, mis võimaldavad filtreerida ja võrrelda.
  • Vahendid — korpuste uurimiseks kasutatakse konkordansitööriistu, sagedusloendeid, n-grammi analüüse, kollokatsioonitabeleid ja visuaaliseerimise tööriistu.

Kuidas korpuseid luuakse ja töödeldakse

Korpuse loomine hõlmab tavaliselt järgmisi etappe: teksti kogumine ja standardiseerimine (vorming, kodeering), puhastamine (nt HTML-märgiste eemaldamine, OCR-vea parandus), metaandmete lisamine ning annotatsioon automaatsete või käsitsi meetoditega. Järgneb indekseerimine ja kättesaadavuse tagamine (ligipääsu piirangud, litsentsid). Reprodutseeritavuse huvides dokumenteeritakse töötlus- ja märgistamisprotsess.

Kasutusalad

  • lexikograafia ja sõnaraamatute koostamine (reaalne kasutusnäide sõnade kontekstis),
  • keeleteaduslikud uuringud (süntaks, morfoloogia, semantika, diskursus),
  • keeleõpe ja materjalide valmistamine (autentsete näidete valimine),
  • masintõlge, automaatne kõnetuvastus, tekstitöötlus ja muu NLP (mudelite treenimine ja testimine),
  • autorsuse määramine ja stilomeetria, digitaalne humanitaaria (tekstide võrdlev analüüs),
  • forensika (nt sõnastuse analüüs kuritegude uurimisel) ja õigusalane keeleteadus.

Praktilised näited

  • Eesti Keelekorpused: Eesti Keele Instituudis hoitavad korpused (nt Eesti keele korpus) võimaldavad uurida sõnavara, lauseehitust ja keelekasutuse muutusi ajas.
  • Paralleelkorpus: masintõlke arendamiseks kasutatakse tekste, mis on olemas nii lähte- kui sihtkeeles ridade kaupa joondatult.
  • Spetsialiseeritud korpus: meditsiinitekstide korpus annab ülevaate terminoloogia kasutusest ja aidates arendada meditsiiniteksti töötlevaid mudeleid.

Märkused terminoloogia kohta

Kuigi ladinakeelne vorm corpus (mitmus corpora) on akadeemilises kirjanduses levinud, kasutatakse eesti keeles tavalisemalt sõna korpus (mitmuses korpused). Inglise keeles on vastavad vormid corpus ja corpora või ka corpora/corpuses, sõltuvalt stiilist. Valikul tasub arvestada sihtrühmaga: akadeemilises tekstis sobib ladinakeelne termin, rahvakeeles ja õppematerjalides on eesti keelne „korpus” selgem ja loetavam.

Kokkuvõte: sõna corpus tähendab laias plaanis „keha” või kogumit — nii füüsilist keha, kuriteo tõendit kui ka struktureeritud tekstide ja andmete kogu, mida kasutatakse teadustöös ja rakendustes. Selle mitmekülgne kasutus on levinud meditsiinist ja õigusteadusest kuni keeleteaduse, arvutiteaduse ja humanitaaraineteni.



Otsige
AlegsaOnline.com - 2020 / 2025 - License CC3