software en diensten > Gemeenschappelijke diensten > Vocabulary Repository
Terminologiebronnen, zoals thesauri, zijn primair een communicatiemiddel, bedoeld om collecties en collectieobjecten eenduidig te beschrijven. Diverse CATCHPlus deelprojecten maken gebruik van terminologiebronnen. Om collecties met elkaar te kunnen verbinden is het wenselijk dat deze bronnen zo openbaar en toegankelijk mogelijk zijn, zonder financiële, technische of juridische barrières.
Om te helpen deze barrières te slechten wordt binnen CATCHPlus een gemeenschappelijke ‘Vocabulary and Alignment Repository’ gebouwd.
Met de ontwikkeling van de Vocabulary and Alignment Repository worden de volgende doelstellingen nagestreefd:
Standaardisatie van formaat naar SKOS
SKOS is een W3C standaard voor het representeren van terminologiebronnen. Het is gebaseerd op ISO standaarden (ISO 2788 and ISO 5964:1985) maar, in tegenstelling tot die standaarden is SKOS gebaseerd op concepten in plaats van op termen die naar elkaar verwijzen. Aan de concepten kunnen verschillende alternatieve termen als tekstlabels kunnen worden gekoppeld. De concepten hebben een unieke identifier, waarnaar verwezen kan worden (een z.g. URI).
Thesaurusrelaties (broader, narrower terms, related terms) zijn binnen SKOS relaties tussen concepten, niet tussen termen. Voordelen zijn onder meer een betere onderhoudbaarheid en uitbreidbaarheid.
Technisch gezien is conversie van bestaande terminologiebronnen naar SKOS meestal geen probleem, al moeten soms concessies worden gedaan door de beperking van in SKOS beschikbare ‘bouwstenen’ .
Publicatie als dataset via een REST web service
Als een terminologiebron in SKOS-vorm beschikbaar is, kan deze eenvoudig in de CATCHPlus vocabulaire repository worden geïmporteerd. De repository maakt het vervolgens mogelijk de bron te publiceren op het web. Een z.g. REST webservice API maakt het mogelijk de data op te halen en te doorzoeken volgens standaard webmethoden. De API wordt voornamelijk gebruikt door programmeurs. Deze publicatiemethode stelt gebruikers in staat om gericht te zoeken naar concepten en relaties die aan bepaalde zoekcriteria voldoen, en om de zoekresultaten precies vorm te geven.
Publicatie als Linked Data
Linked Open Data is een snelgroeiend ‘web’ van naar elkaar verwijzende datacollecties op het World Wide Web. Ook deze verwijzingen hebben de vorm van URIs. In dit geval verwijzen de URIs naar een webpagina of naar een afgebakende dataset.
De vocabulaire repository biedt alle concepten als zo’n afgebakende dataset op het web aan. Daarmee ontstaat de mogelijkheid vanaf het web op gestandaardiseerde wijze naar concepten uit de repository te verwijzen. Het omgekeerde kan in principe ook: conceptbeschrijvingen in de repository kunnen worden verrijkt met verwijzingen naar externe Linked Data.
Semantische interoperabiliteit bevorderen
Gebruik van verschillende terminologiebronnen maakt het lastig collecties gelijktijdig te doorzoeken en zoekresultaten te vergelijken. Om dit te ondervangen worden door een aantal projecten en organisaties verbanden tussen concepten in verschillende thesauri gelegd. De Vocabulary and Alignment Repository biedt de mogelijkheid dergelijke koppelingen (“alignments”) op te slaan en te doorzoeken.
Ontkoppelen terminologieaanbod en –gebruik
Momenteel zijn thesaurusaanbieders vaak gebonden aan specifieke collectiebeheer software voor onderhoud. En om bepaalde thesauri te gebruiken is ondersteuning van collectiebeheer software vaak nodig.
Terminologieaanbieders en aanbieders van collectiebeheer software hebben beiden een belang bij ontkoppeling: de aanbieders worden onafhankelijker van specifieke beheersoftware, de toolbouwers hoeven niet veel extra werk te investeren in ondersteuning van iedere afzonderlijke thesaurus.
Licentieproblematiek aanpakken
Veel terminologiebronnen zijn enkel tegen betaling onder licentie beschikbaar. CATCHPlus streeft ernaar zoveel mogelijk bronnen onder open licenties te brengen, zoals de Open Database Licentie. Waar dat niet mogelijk is, biedt de vocabulary repository een mogelijkheid licenties niet per organisatie, maar per gebruikersgemeenschap te regelen.
Momenteel is de repository gerealiseerd op basis van een zogenaamde RDF Store. Een eerste versie van de REST web service is binnen CATCHPlus ontwikkeld en online beschikbaar (broncode is onder open source licentie eveneens beschikbaar). In opdracht van CATCHPlus is bovendien een webgebaseerde browse- en zoektool ontwikkeld om de inhoud van de repository ook voor eindgebruikers toegankelijk te maken.
In het kader van de samenwerking tussen Beeld en Geluid en het Nationaal Archief wordt de Gemeenschappelijke Thesaurus Audiovisuele Archieven (GTAA) momenteel met behulp van de REST service binnen het collectiebeheersysteem van het Nationaal Archief beschikbaar gemaakt.
De eerste bèta versie van de vocabulary repository is sinds kort online beschikbaar voor betrokkenen. Op verzoek is de link verkrijgbaar via het projectbureau.

