Semantiline veeb on W3C algatus, mis kasutab metaandmeid ja struktureeritud kirjeldusi, et kirjutada konkreetseid teemaga seotud üksikasju nii, et arvutid suudaksid internetis oleva teabe tähendust paremini mõista ja töödelda. Selle eesmärk on salvestada täiendavaid semantilisi üksikasju, mis võimaldaksid arvutitel automatiseeritult otsida, kombineerida, tõlgendada ja jagada teavet veebis — mitte ainult kuvada seda inimestele.
World Wide Webi leiutaja Tim Berners Lee esitas ideed semantilisest veebist kui viisi muuta veebi intelligentsuse ja interoperatiivsuse osas intuitiivsemaks ning paremini vastavaks kasutaja vajadustele. Teabe ja teenuste semantika määratletakse standardselt, kasutades ontoloogiate keeli ja skeeme nagu OWL ja RDF-skeemid. Neid kasutatakse mõistete, terminite ja seoste formaalseks kirjeldamiseks konkreetses teadmisvaldkonnas, nii et masinad saaksid teha järeldusi ja ühildada erinevaid andmeallikaid.
Tim Berners-Lee idee oli järgmine:
- Kasutada masina-lugemiseks sobivaid identifikaatoreid (URI-sid), mis viitavad objektidele ja mõistetele veebiressursside kujul.
- Lisada lehtedele struktureeritud metaandmed (nt RDF), mis kirjeldavad neis leiduvat teavet masinloetaval kujul.
- Kirjeldada termineid ja nende suhteid ontoloogiate kaudu (nt OWL), nii et arvutid mõistaksid, kuidas mõisted omavahel seotud on.
- Lubada automaatset järeldamist ja päringuid (nt SPARQL), et agentidel ja rakendustel oleks võimalik kombineerida ja pärida hajutatud teadmisi.
- Edendada andmete seostamist (Linked Data põhimõtted), et sama teave võiks olla kättesaadav ja ühenduv üle erinevate allikate.
Põhitehnoloogiad lühidalt
- URI — unikaalne identifikaator veebiressurssidele (nt objektid, kontseptsioonid).
- RDF (Resource Description Framework) — standard andmete modelleerimiseks kolmetena (subjekt — predikaat — objekt). RDF võimaldab kirjeldada faktilisi väiteid masinloetaval kujul.
- RDFS (RDF Schema) — lihtne skeemikeel, mis võimaldab määratleda klasse, omadusi ning hierarhiaid (nt subClassOf, domain, range).
- OWL (Web Ontology Language) — võimsam ontoloogiate keel, mis võimaldab kirjeldada keerukaid suhteid, omaduste kardinaalsust ja semantilisi piiranguid ning toetab loogilist järeldamist.
- SPARQL — päringukeel RDF-andmete otsimiseks ja töötlemiseks, sarnane SQL-ile, kuid sobib graafilise andmemudeli pärimiseks.
- Seriaalsed vormingud — RDF/XML, Turtle, N-Triples, JSON-LD jpt, mis võimaldavad salvestada ja edastada semantilist sisu.
Kuidas RDF töötab (tripli näide)
RDF esitab iga väite kolmena: subjekt — predikaat — objekt. Näide vabas vormis:
- Subjekt: http://example.org/isik/Mari
- Predikaat: onNimi
- Objekt: "Mari Kask"
See kirjeldus ütleb, et ressursil «http://example.org/isik/Mari» on omadus "onNimi" väärtusega "Mari Kask". Selliseid triplidena esitatud väiteid saab salvestada andmebaasidesse (triple store) ja nende põhjal teha päringuid või järeldusi.
Ontoloogiad ja OWL
Ontoloogia on formaalne mudel, mis määratleb mõisted (klassid), omadused (relatsioonid) ja reeglid antud domeeni kohta. OWL võimaldab väljendada keerukamaid konstruktsioone kui RDFS, näiteks klassi osa-, ühis-, eraldi- ja piirangute definitsioone. Ontoloogiaid kasutatakse andmete semantilise ühtlustamise ja automaatse järeldamise alusena — reasoner'id (järeldusmootorid) saavad ontoloogia ja andmete põhjal tuletada uusi teadmisi, mida otseselt salvestatud ei olnud.
Linked Data ja W3C põhimõtted
Semantilise veebiga tihedalt seotud on ka Linked Data (seotud andmed) mõiste: andmete avaldamine kujul, kus igal objektil on HTTP-URI, mis tagab, et see on unikaalselt identifitseeritav ja ligipääsetav; vastuse korral antakse struktureeritud, standarditel põhinev teave (nt RDF); ning esitatud andmed seovad end teiste veebi-resurssidega, et luua rikas, ühendatud teadmiste graaf.
Rakendused ja kasud
- Andmete integreerimine eri allikatest (nt meditsiin, teadus, avalik sektor), kus sama mõiste võib eksisteerida mitmes vormis.
- Tark otsing ja semantiline rikastamine — otsingumootorid saavad paremini mõista konteksti ja anda täpsemaid tulemusi.
- Automaatagentide ja isiklike abistajate paranenud võime teha täpsemaid päringuid ja kombineerida teadmisi.
- Interoperatiivsus standardiseeritud andmemudelite kaudu, mis lihtsustab API-de ja teenuste kasutust.
Väljakutsed ja piirangud
- Andmete modelleerimise keerukus — ontoloogiate konstrueerimine nõuab domääniteadmisi ja hoolikat kavandamist.
- Skaleerimise küsimused — suuri teadmistegraafe ja keerukaid järeldusi pole alati kerge reaalajas töödelda.
- Andmete kvaliteet ja vasturääkivused — eri allikate vahel võivad esineda vastuolulised väited.
- Privaatsus ja turvalisus — struktureeritud andmete avalikustamisel tuleb arvestada isikuandmete ja konfidentsiaalsusega.
- Adopteerimise barjäärid — standardite ja tööriistade õppimine ning olemasolevate süsteemide ühilduseks kohandamine võtab aega.
Tööriistad ja standardid
Semantilise veebiga töötamisel kasutatakse mitmeid avatud ja kommerts-tööriistu: ontoloogiate loomiseks ja redigeerimiseks on populaarne Protégé; RDF-andmetega töötamiseks ja päringuks kasutatakse Apache Jena, RDF4J jt; andmepoodideks on GraphDB, Stardog, Blazegraph jne. W3C määratleb ja hooldab põhistandardeid (nt RDF, RDFS, OWL, SPARQL), mis tagavad ühilduvuse ja leviku.
Kuidas alustada?
- Õpi RDF ja kolmetena esitatud andmete mõistet ning proovi mõnda lihtsat serialiseerimist (Turtle või JSON-LD).
- Tutvu RDFS-iga, et mõista klasside ja omaduste põhitõdesid.
- Kui vajad keerukamat semantikat, loo või kohanda olemasolevat OWL-ontoloogiat.
- Katseta väikese triplestore’i ja tee SPARQL-päringuid, et näha, kuidas teadmised päringu kaudu ilmnevad.
- Vaata olemasolevaid vocabularies/võtmesõnu (nt FOAF, SKOS) ja Linked Data näiteid, et vältida tarbetut dubleerimist.
Semantiline veeb ei tähenda lihtsalt rohkem metaandmeid — selle eesmärk on muuta veeb intelligentselt ühendatuks, nii et nii inimesed kui ka masinad suudaksid efektiivsemalt leida, mõista ja kasutada teavet. Kuigi tehnoloogia ja standardid on küpsed, sõltub praktikas edu tugevalt andmete kvaliteedist, domain-spetsiifilisest modelleerimisest ja laiemast koostööst organisatsioonide vahel.