Sunday, March 30, 2008

Digitaal zoeken in meerdere collecties tegelijk

Volautomatisch overeenkomsten tussen verschillende thesauri vinden. Dat is informatici van de Vrije Universiteit samen met medewerkers van de Koninklijke Bibliotheek gelukt. Zo moet zowel de gewone bibliotheekgebruiker als de informatieprofessional in de toekomst met één zoekopdracht door meerdere bibliotheekcollecties kunnen zoeken, niet alleen in eigen land maar ook in het buitenland.

Dit artikel is gepubliceerd in Informatieprofessional, april 2008


De Koninklijke Bibliotheek (KB) in Den Haag beschikt over meer dan tachtig kilometer aan boeken en tijdschriften. Daaronder bevinden zich tientallen bijzondere collecties, zoals middeleeuwse handschriften, middeleeuwse illustraties, maar ook strips, kookboeken en affiches. Het is historisch zo gegroeid dat elke collectie vaak wordt beschreven met een eigen catalogus of thesaurus. De ene thesaurus gebruikt bijvoorbeeld de zoekterm ‘plankzeilen’, terwijl een andere de zoekterm ‘surfsport’ gebruik.

Nu bibliotheken hun catalogi via het internet voor iedereen en van over de hele wereld toegankelijk hebben gemaakt, wordt het steeds urgenter om met dezelfde zoekterm in meerdere boekencollecties tegelijk te kunnen zoeken, en niet voor de ene collectie ‘plankzeilen’ te moeten gebruiken en voor de andere ‘surfsport’, of de ene keer ‘influenza’ en de andere keer ‘griep’.

Het zoeken in boekencollecties die met verschillende thesauri worden beschreven, wordt nog door een aantal andere factoren bemoeilijkt. Zo kunnen persoonsnamen ambigu zijn. Wil de gebruiker die de zoekterm ‘van Gogh’ intikt iets weten over de schilder Vincent van Gogh, of over de filmer Theo van Gogh, of misschien nog een andere Van Gogh? Verder wordt met verschillende benamingen soms hetzelfde bedoeld. Dezelfde Japanse kunststroming die in Nederland de ‘Edo-periode’ heet, wordt elders ook wel aan geduid met ‘Tokugawa-periode’. En wie met een druk op de knop tegelijk wil zoeken in de KB en in de Franse zuster, de Bibliothèque Nationale de France (BNF), loopt zowel op tegen een taalprobleem als een probleem met verschillende thesauri.

Dubbele annotatie
In het onderzoeksproject STITCH (Semantic Interoperability to Access Cultural Heritage) – het Engelse ‘to stitch’ betekent ‘aan elkaar rijgen’– werken onderzoekers van de Vrije Universiteit (VU) in Amsterdam samen met medewerkers van de KB aan twee projecten die verschillende boekencollecties tegelijk doorzoekbaar moeten maken. “De kunst is om collecties te integreren alleen op basis van metadata”, zegt Frank van Harmelen, STITCH-projectleider en hoogleraar kunstmatige intelligentie aan de VU. “Wij zoeken nooit in de boeken zelf. Immers, de inhoud van veruit de meeste boeken is nog niet digitaal beschikbaar, en het is maar de vraag of dat ooit het geval zal zijn. We kijken daarom alleen in de catalogi die de boeken beschrijven, want die zijn wel algemeen digitaal beschikbaar.”

Zo heeft de KB een Wetenschappelijke Collectie van anderhalf miljoen boeken, en een Depotcollectie van een miljoen boeken. Beide collecties worden met een aparte thesaurus beschreven: de Wetenschappelijke Collectie met een thesaurus van 35.000 termen, en de Depotcollectie met eentje van 5.000 termen. Elke thesaurus is een hiërarchisch woordenboek dat begint met algemene termen, en naar beneden toe steeds specifieker wordt. Onder de zoekterm ‘planten’ hangt bijvoorbeeld de zoekterm ‘bomen’ en daaronder ‘eiken’, ‘beuken’ enz.

Van Harmelen: “Dat betekent dat de gebruiker veroordeeld is tot tweemaal zoeken: met de ene thesaurus in de Wetenschappelijke Collectie en met de andere in de Depotcollectie. Daarnaast wordt een kwart miljoen boeken met beide thesauri beschreven. Dat betekent niet alleen dubbele annotatiekosten, maar ook dubbele onderhoudskosten. Zo werden in 2006 1700 boeken dubbel geannoteerd. In principe hebben we dat probleem nu opgelost. In de afgelopen 2,5 jaar hebben we samen met de KB een methode ontwikkeld om in één keer in beide catalogi te zoeken.”

De wetenschappelijke truc zit in een statistische methode die volautomatisch kijkt hoe sterk twee verzamelingen overlappen, en die de mate van overlap in een getal uitdrukt. Hoe sterker de overlap, hoe groter het getal. De statistische methode weet zelf niets van betekenissen van woorden, maar kan wel snel overlappende verzamelingen opsporen. Omdat een kwart miljoen boeken met twee thesauri is beschreven, konden de onderzoekers kijken in welke mate zoektermen uit beide thesauri dezelfde boeken beschreven. Als zoeken op ‘plankzeilen’ vrijwel dezelfde boeken oplevert als zoeken op ‘surfsport’, dan trekt het zoeksysteem automatisch de conclusie dat het waarschijnlijk om hetzelfde onderwerp gaat.

Omdat de ene thesaurus 35.00 termen bevat en de andere 5.000, hebben niet alle termen uit de een, ook automatisch een equivalent in de ander. Maar omdat de vocabulaires hiërarchisch zijn opgebouwd, weet het zoekprogramma wel dat als een term hoger in de boomstructuur een equivalent heeft in de ander, de kans groot is dat ook de takken daaronder met elkaar te maken hebben. Zo wordt de hiërarchie van het vocabulaire gebruikt om meer termen te overdekken dan het programma in de eerste plaats vindt. Afhankelijk van wat de eindgebruiker wil, kan hij instellen in welke mate correctheid en volledigheid van het gezochte belangrijk zijn. Een scholier die een scriptie schrijft, zal al blij zijn als hij 50 goede artikelen vindt van een collectie van 100, terwijl een wetenschapper ze alle 100 wil vinden, ook als hij daarvoor van de 150 zoekresultaten er zelf handmatig 50 moet wegstrepen.

Hoe goed werkt de methode? Van Harmelen: “Als we de parameters heel conservatief instellen, en alleen maar de 1000 beste antwoorden opvragen, dan blijkt daarvan 90% correct te zijn. Dat is op zich mooi, maar we missen dan natuurlijk heel veel antwoorden die ook goed zijn, maar die niet bij de eerste 1000 zitten. Als we de parameters wat toleranter instellen zodat we meer goede antwoorden terugkrijgen, bijvoorbeeld 70%, dan gaat dat ten koste van de precisie: niet alleen krijgen we dan meer goede antwoorden terug, maar helaas ook meer foute. Ruwweg is dan ongeveer 3 op de 10 antwoorden fout. Dus: 70% precisie op het 70% recall-nivo.”

Vervolgens zijn de resultaten van het zoekprogramma ter controle aan beroepsannotators van de KB gegeven. Zij beoordeelden of de woorden die volgens onze software hetzelfde betekenen ook echt hetzelfde betekenen. “De KB-professionals vormen de gouden standaard voor het ijken van onze statistische methode”, aldus Van Harmelen. “Juist door die nauwe samenwerking met de KB zijn we als een van de eersten in de wereld in staat geweest om onze statistische methode zo goed te gebruiken en zo uitgebreid te evalueren. Veel buitenlandse collega’s publiceerden wel over hun wetenschappelijke methode, maar hadden geen mogelijkheid om die ook uitgebreid te testen op echte catalogi.”

Dit deel van STITCH is inmiddels afgerond. De KB bekijkt nu hoe de wetenschappelijke methode gebruiksklaar kan worden gemaakt. Van Harmelen: “Wij hebben een nieuwe methode ontworpen en getest om in verschillende catalogi tegelijk te zoeken. Nu we hebben laten zien dat het onderliggende wetenschappelijke principe werkt, kan een commerciële partij er echt een product van gaan maken. Dat is niet meer onze taak, en dat begrijpt de KB prima.”

Er bestaat een groot aantal uiteenlopende technieken om verschillende catalogi te integreren: statistiek, logica, taalkunde en zelfs wiskundige grafentheorie. De grote vraag is nu wanneer welke methode het beste werkt. Van Harmelen en zijn onderzoekers werken nu verder aan het beantwoorden van deze overkoepelende vraag. “Als morgen het Van Gogh Museum aankomt met de vraag om verschillende van hun catalogi te integreren, dan willen we een theorie uit de kast kunnen trekken die voorspelt welke methode we het beste kunnen gebruiken. Zo’n theorie bestaat nog niet en daar zoeken we nu naar.”

Europese boekenintegratie
De STITCH-onderzoekers werken ook nog aan een tweede project, dat binnen een groter, Europees kader past. Hier is de uitdaging om de catalogi van de nationale bibliotheken van de EU-landen te integreren. STITCH heeft inmiddels een pilot project achter de rug dat zich richtte op het integreren van de catalogi die middeleeuwse illustraties van de Koninklijke Bibliotheek en de Bibliothèque Nationale de France beschrijven. Het probleem zit niet alleen in het gebruik van verschillende talen. Het zit vooral in een verschillende beschrijving van de wereld van de illustraties.

De KB gebruikt als thesaurus Iconclass, dat sinds de jaren vijftig in Nederland is ontwikkeld. De BNF gebruikt echter haar eigen thesaurus, die Mandragore heet. Waar Iconclass bijvoorbeeld de zoekterm ‘Religion and magic’ gebruikt, doet de Franse Mandragore het met zoektermen als ‘Christianisme’, ‘Autres religions’ en ‘Parapsychologies, occultisme, demonologie…’. STITCH zoekt naar automatische oplossingen om deze twee catalogi te integreren. Daarvoor hoeft geen nieuwe overkoepelende catalogus te worden gemaakt, want dat zou enorm veel extra handwerk vereisen.

In dit geval kon geen statistische methode worden gebruikt omdat er geen objecten waren die in beide collecties voorkwamen. De Franse thesaurus werd nu eerst vertaald, deels met een automatisch woordenboek en deels met een al in het Frans bestaande subthesaurus van Iconclass, die een klein deel van Iconclass in het Frans beschrijft. Het algoritme dat na de vertaalslag zocht naar de overeenkomsten, gebruikte een combinatie van ‘morfologische regels’ en ‘woordafstanden’. Morfologische regels beoordelen op grond van woordvormen (enkelvoud-meervoud; zelfstandig naamwoord; bijvoeglijk naamwoord, samengestelde woorden…) hoe sterk woorden op elkaar lijken. Woordafstanden bepalen een soort wiskundige afstand tussen woorden door te kijken hoeveel bewerkingen er nodig zijn om van het ene woord het andere te maken: hoeveel letters moet je toevoegen, weghalen of veranderen.

De automatische technieken brengen de integratie van internationale boekencollecties van nationale bibliotheken een flinke stap dichterbij. “Met een automatische vergelijking van thesauri kun je op manieren zoeken die met gewone tekstzoekmachines niet kunnen”, besluit van Harmelen. “Bijvoorbeeld meertalig zoeken; het zoeken in collecties die niet uit tekst, maar uit illustraties bestaan; het integreren van collecties en ook het zoeken op basis van domeinkennis.”

De binnen STITCH ontwikkelde technieken zijn zo algemeen dat ze ook buiten het domein van het culturele erfgoed bruikbaar zijn, bijvoorbeeld binnen de geneeskunde, waar vaak ook verschillende termen voor hetzelfde begrip worden gebruikt. Dat is het mooie van wiskunde en informatica: ze leveren gereedschap dat universeel toepasbaar is.


CATCH

STITCH is een van de tien projecten binnen het landelijke onderzoeksprogramma CATCH (Continuous Access To Cultural Heritage). CATCH is een onderzoeksprogramma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) gericht op het digitaal toegankelijk maken van het Nederlandse culturele erfgoed. Dat erfgoed is beschikbaar in de vorm van teksten (zoals logboeken en rijksarchieven), beelden (zoals foto’s, film, tv en schilderijen) en geluiden (zoals radio-uitzendingen). CATCH gaat niet over het omzetten van analoog erfgoed naar een digitale vorm – dat lukt al vrij goed – maar juist om de digitale gegevens beter doorzoekbaar te maken.

In CATCH werken informaticawetenschappers samen met geesteswetenschappers en beheerders bij culturele erfgoedinstellingen zoals de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid en natuurhistorisch museum Naturalis. CATCH ging van start in november 2004 en loopt tot 2009. Het onderzoeksprogramma is onderverdeeld in tien projecten, die elk een onderzoeksteam hebben bestaande uit een promovendus, een postdoc, een wetenschappelijk programmeur, senior onderzoekers van universiteiten en senior stafleden van culturele instellingen.


Internet
Overzicht van alle CATCH-projecten:
www.nwo.nl/catch
STITCH-demo’s:
www.cs.vu.nl/STITCH/demo.html
Demo van de Europese Digitale Bibliotheek:
http://www.europeana.eu/