Semantiline veeb: mis see on, W3C, OWL ja RDF ülevaade
Semantiline veeb: W3C, OWL ja RDF selgitused — kuidas metaandmed ja ontoloogiad võimaldavad arvutitel mõista, leida ja kombineerida veebiteavet tõhusamalt.
Semantiline veeb on W3C algatus, mis kasutab metaandmeid ja struktureeritud kirjeldusi, et kirjutada konkreetseid teemaga seotud üksikasju nii, et arvutid suudaksid internetis oleva teabe tähendust paremini mõista ja töödelda. Selle eesmärk on salvestada täiendavaid semantilisi üksikasju, mis võimaldaksid arvutitel automatiseeritult otsida, kombineerida, tõlgendada ja jagada teavet veebis — mitte ainult kuvada seda inimestele.
World Wide Webi leiutaja Tim Berners Lee esitas ideed semantilisest veebist kui viisi muuta veebi intelligentsuse ja interoperatiivsuse osas intuitiivsemaks ning paremini vastavaks kasutaja vajadustele. Teabe ja teenuste semantika määratletakse standardselt, kasutades ontoloogiate keeli ja skeeme nagu OWL ja RDF-skeemid. Neid kasutatakse mõistete, terminite ja seoste formaalseks kirjeldamiseks konkreetses teadmisvaldkonnas, nii et masinad saaksid teha järeldusi ja ühildada erinevaid andmeallikaid.
Tim Berners-Lee idee oli järgmine:
- Kasutada masina-lugemiseks sobivaid identifikaatoreid (URI-sid), mis viitavad objektidele ja mõistetele veebiressursside kujul.
- Lisada lehtedele struktureeritud metaandmed (nt RDF), mis kirjeldavad neis leiduvat teavet masinloetaval kujul.
- Kirjeldada termineid ja nende suhteid ontoloogiate kaudu (nt OWL), nii et arvutid mõistaksid, kuidas mõisted omavahel seotud on.
- Lubada automaatset järeldamist ja päringuid (nt SPARQL), et agentidel ja rakendustel oleks võimalik kombineerida ja pärida hajutatud teadmisi.
- Edendada andmete seostamist (Linked Data põhimõtted), et sama teave võiks olla kättesaadav ja ühenduv üle erinevate allikate.
Põhitehnoloogiad lühidalt
- URI — unikaalne identifikaator veebiressurssidele (nt objektid, kontseptsioonid).
- RDF (Resource Description Framework) — standard andmete modelleerimiseks kolmetena (subjekt — predikaat — objekt). RDF võimaldab kirjeldada faktilisi väiteid masinloetaval kujul.
- RDFS (RDF Schema) — lihtne skeemikeel, mis võimaldab määratleda klasse, omadusi ning hierarhiaid (nt subClassOf, domain, range).
- OWL (Web Ontology Language) — võimsam ontoloogiate keel, mis võimaldab kirjeldada keerukaid suhteid, omaduste kardinaalsust ja semantilisi piiranguid ning toetab loogilist järeldamist.
- SPARQL — päringukeel RDF-andmete otsimiseks ja töötlemiseks, sarnane SQL-ile, kuid sobib graafilise andmemudeli pärimiseks.
- Seriaalsed vormingud — RDF/XML, Turtle, N-Triples, JSON-LD jpt, mis võimaldavad salvestada ja edastada semantilist sisu.
Kuidas RDF töötab (tripli näide)
RDF esitab iga väite kolmena: subjekt — predikaat — objekt. Näide vabas vormis:
- Subjekt: http://example.org/isik/Mari
- Predikaat: onNimi
- Objekt: "Mari Kask"
See kirjeldus ütleb, et ressursil «http://example.org/isik/Mari» on omadus "onNimi" väärtusega "Mari Kask". Selliseid triplidena esitatud väiteid saab salvestada andmebaasidesse (triple store) ja nende põhjal teha päringuid või järeldusi.
Ontoloogiad ja OWL
Ontoloogia on formaalne mudel, mis määratleb mõisted (klassid), omadused (relatsioonid) ja reeglid antud domeeni kohta. OWL võimaldab väljendada keerukamaid konstruktsioone kui RDFS, näiteks klassi osa-, ühis-, eraldi- ja piirangute definitsioone. Ontoloogiaid kasutatakse andmete semantilise ühtlustamise ja automaatse järeldamise alusena — reasoner'id (järeldusmootorid) saavad ontoloogia ja andmete põhjal tuletada uusi teadmisi, mida otseselt salvestatud ei olnud.
Linked Data ja W3C põhimõtted
Semantilise veebiga tihedalt seotud on ka Linked Data (seotud andmed) mõiste: andmete avaldamine kujul, kus igal objektil on HTTP-URI, mis tagab, et see on unikaalselt identifitseeritav ja ligipääsetav; vastuse korral antakse struktureeritud, standarditel põhinev teave (nt RDF); ning esitatud andmed seovad end teiste veebi-resurssidega, et luua rikas, ühendatud teadmiste graaf.
Rakendused ja kasud
- Andmete integreerimine eri allikatest (nt meditsiin, teadus, avalik sektor), kus sama mõiste võib eksisteerida mitmes vormis.
- Tark otsing ja semantiline rikastamine — otsingumootorid saavad paremini mõista konteksti ja anda täpsemaid tulemusi.
- Automaatagentide ja isiklike abistajate paranenud võime teha täpsemaid päringuid ja kombineerida teadmisi.
- Interoperatiivsus standardiseeritud andmemudelite kaudu, mis lihtsustab API-de ja teenuste kasutust.
Väljakutsed ja piirangud
- Andmete modelleerimise keerukus — ontoloogiate konstrueerimine nõuab domääniteadmisi ja hoolikat kavandamist.
- Skaleerimise küsimused — suuri teadmistegraafe ja keerukaid järeldusi pole alati kerge reaalajas töödelda.
- Andmete kvaliteet ja vasturääkivused — eri allikate vahel võivad esineda vastuolulised väited.
- Privaatsus ja turvalisus — struktureeritud andmete avalikustamisel tuleb arvestada isikuandmete ja konfidentsiaalsusega.
- Adopteerimise barjäärid — standardite ja tööriistade õppimine ning olemasolevate süsteemide ühilduseks kohandamine võtab aega.
Tööriistad ja standardid
Semantilise veebiga töötamisel kasutatakse mitmeid avatud ja kommerts-tööriistu: ontoloogiate loomiseks ja redigeerimiseks on populaarne Protégé; RDF-andmetega töötamiseks ja päringuks kasutatakse Apache Jena, RDF4J jt; andmepoodideks on GraphDB, Stardog, Blazegraph jne. W3C määratleb ja hooldab põhistandardeid (nt RDF, RDFS, OWL, SPARQL), mis tagavad ühilduvuse ja leviku.
Kuidas alustada?
- Õpi RDF ja kolmetena esitatud andmete mõistet ning proovi mõnda lihtsat serialiseerimist (Turtle või JSON-LD).
- Tutvu RDFS-iga, et mõista klasside ja omaduste põhitõdesid.
- Kui vajad keerukamat semantikat, loo või kohanda olemasolevat OWL-ontoloogiat.
- Katseta väikese triplestore’i ja tee SPARQL-päringuid, et näha, kuidas teadmised päringu kaudu ilmnevad.
- Vaata olemasolevaid vocabularies/võtmesõnu (nt FOAF, SKOS) ja Linked Data näiteid, et vältida tarbetut dubleerimist.
Semantiline veeb ei tähenda lihtsalt rohkem metaandmeid — selle eesmärk on muuta veeb intelligentselt ühendatuks, nii et nii inimesed kui ka masinad suudaksid efektiivsemalt leida, mõista ja kasutada teavet. Kuigi tehnoloogia ja standardid on küpsed, sõltub praktikas edu tugevalt andmete kvaliteedist, domain-spetsiifilisest modelleerimisest ja laiemast koostööst organisatsioonide vahel.
Markup
World Wide Web põhineb HTML-dokumentidel. Semantiline veeb hõlmab ressursside kirjeldamise raamistiku (RDF) kasutamist, mis sisaldab andmeid, mida arvutid kasutavad. HTML-is kasutatav kujundus salvestatakse eraldi, näiteks CSS-failis. RDF ja OWL võivad kas täiendada või asendada veebidokumentide sisu (XHTML).Sel viisil saab masin kasutada teadmisi ise. Kasutades teavet inimese mõttekäiguga sarnasel viisil, saab ta luua sisukamaid tulemusi.
Küsimused ja vastused
K: Mis on semantiline veeb?
V: Semantiline veeb on W3C projekt, mis kasutab metaandmeid, et kirjutada teemaga seotud konkreetseid üksikasju, mis aitavad arvutitel internetis teavet paremini töödelda.
K: Kes leiutas semantilise veebi?
V: Semantilise veebi leiutaja on Tim Berners Lee, kes on ka World Wide Webi leiutaja.
K: Mis on semantilise veebi eesmärk?
V: Semantilise veebi eesmärk on salvestada täiendavaid semantilisi üksikasju, muutes arvutid võimeliseks tegema rohkem tööd, mis on seotud teabe leidmise, jagamise ja kombineerimisega Internetis.
K: Millist kasu saaksid kasutajad semantilisest veebist?
V: Semantiline veeb tooks kasutajatele kasu, sest see muudaks veebi intuitiivsemaks, kuidas nende vajadusi rahuldada.
K: Milleks kasutatakse veebi ontoloogiakeelt (OWL) ja RDF-skeeme?
V: Web Ontology Language (OWL) ja RDF skeemid on mõeldud selleks, et anda formaalne kirjeldus mõistete, terminite ja suhete kohta teatavas teadmiste valdkonnas seoses teabe ja teenuste semantikaga.
K: Miks Tim Berners-Lee pooldab semantilist veebi?
V: Tim Berners-Lee pooldab semantilist veebi, sest ta soovib muuta veebi intuitiivsemaks, et see vastaks kasutaja vajadustele.
K: Millist rolli mängivad metaandmed semantilises veebis?
V: Metaandmed mängivad semantilises veebis olulist rolli, kuna nad annavad konkreetse teemaga seotud üksikasju, mis võimaldavad teavet internetis paremini mõista ja töödelda.
Otsige