Digitaal zoeken in meerdere collecties tegelijk

Sunday, March 30, 2008

Digitaal zoeken in meerdere collecties tegelijk

Volautomatisch overeenkomsten tussen verschillende thesauri vinden. Dat is informatici van de Vrije Universiteit samen met medewerkers van de Koninklijke Bibliotheek gelukt. Zo moet zowel de gewone bibliotheekgebruiker als de informatieprofessional in de toekomst met één zoekopdracht door meerdere bibliotheekcollecties kunnen zoeken, niet alleen in eigen land maar ook in het buitenland.

Dit artikel is gepubliceerd in Informatieprofessional, april 2008

De Koninklijke Bibliotheek (KB) in Den Haag beschikt over meer dan tachtig kilometer aan boeken en tijdschriften. Daaronder bevinden zich tientallen bijzondere collecties, zoals middeleeuwse handschriften, middeleeuwse illustraties, maar ook strips, kookboeken en affiches. Het is historisch zo gegroeid dat elke collectie vaak wordt beschreven met een eigen catalogus of thesaurus. De ene thesaurus gebruikt bijvoorbeeld de zoekterm ‘plankzeilen’, terwijl een andere de zoekterm ‘surfsport’ gebruik.

Nu bibliotheken hun catalogi via het internet voor iedereen en van over de hele wereld toegankelijk hebben gemaakt, wordt het steeds urgenter om met dezelfde zoekterm in meerdere boekencollecties tegelijk te kunnen zoeken, en niet voor de ene collectie ‘plankzeilen’ te moeten gebruiken en voor de andere ‘surfsport’, of de ene keer ‘influenza’ en de andere keer ‘griep’.

Het zoeken in boekencollecties die met verschillende thesauri worden beschreven, wordt nog door een aantal andere factoren bemoeilijkt. Zo kunnen persoonsnamen ambigu zijn. Wil de gebruiker die de zoekterm ‘van Gogh’ intikt iets weten over de schilder Vincent van Gogh, of over de filmer Theo van Gogh, of misschien nog een andere Van Gogh? Verder wordt met verschillende benamingen soms hetzelfde bedoeld. Dezelfde Japanse kunststroming die in Nederland de ‘Edo-periode’ heet, wordt elders ook wel aan geduid met ‘Tokugawa-periode’. En wie met een druk op de knop tegelijk wil zoeken in de KB en in de Franse zuster, de Bibliothèque Nationale de France (BNF), loopt zowel op tegen een taalprobleem als een probleem met verschillende thesauri.

Dubbele annotatie
In het onderzoeksproject STITCH (Semantic Interoperability to Access Cultural Heritage) – het Engelse ‘to stitch’ betekent ‘aan elkaar rijgen’– werken onderzoekers van de Vrije Universiteit (VU) in Amsterdam samen met medewerkers van de KB aan twee projecten die verschillende boekencollecties tegelijk doorzoekbaar moeten maken. “De kunst is om collecties te integreren alleen op basis van metadata”, zegt Frank van Harmelen, STITCH-projectleider en hoogleraar kunstmatige intelligentie aan de VU. “Wij zoeken nooit in de boeken zelf. Immers, de inhoud van veruit de meeste boeken is nog niet digitaal beschikbaar, en het is maar de vraag of dat ooit het geval zal zijn. We kijken daarom alleen in de catalogi die de boeken beschrijven, want die zijn wel algemeen digitaal beschikbaar.”

Zo heeft de KB een Wetenschappelijke Collectie van anderhalf miljoen boeken, en een Depotcollectie van een miljoen boeken. Beide collecties worden met een aparte thesaurus beschreven: de Wetenschappelijke Collectie met een thesaurus van 35.000 termen, en de Depotcollectie met eentje van 5.000 termen. Elke thesaurus is een hiërarchisch woordenboek dat begint met algemene termen, en naar beneden toe steeds specifieker wordt. Onder de zoekterm ‘planten’ hangt bijvoorbeeld de zoekterm ‘bomen’ en daaronder ‘eiken’, ‘beuken’ enz.

Van Harmelen: “Dat betekent dat de gebruiker veroordeeld is tot tweemaal zoeken: met de ene thesaurus in de Wetenschappelijke Collectie en met de andere in de Depotcollectie. Daarnaast wordt een kwart miljoen boeken met beide thesauri beschreven. Dat betekent niet alleen dubbele annotatiekosten, maar ook dubbele onderhoudskosten. Zo werden in 2006 1700 boeken dubbel geannoteerd. In principe hebben we dat probleem nu opgelost. In de afgelopen 2,5 jaar hebben we samen met de KB een methode ontwikkeld om in één keer in beide catalogi te zoeken.”

De wetenschappelijke truc zit in een statistische methode die volautomatisch kijkt hoe sterk twee verzamelingen overlappen, en die de mate van overlap in een getal uitdrukt. Hoe sterker de overlap, hoe groter het getal. De statistische methode weet zelf niets van betekenissen van woorden, maar kan wel snel overlappende verzamelingen opsporen. Omdat een kwart miljoen boeken met twee thesauri is beschreven, konden de onderzoekers kijken in welke mate zoektermen uit beide thesauri dezelfde boeken beschreven. Als zoeken op ‘plankzeilen’ vrijwel dezelfde boeken oplevert als zoeken op ‘surfsport’, dan trekt het zoeksysteem automatisch de conclusie dat het waarschijnlijk om hetzelfde onderwerp gaat.

Omdat de ene thesaurus 35.00 termen bevat en de andere 5.000, hebben niet alle termen uit de een, ook automatisch een equivalent in de ander. Maar omdat de vocabulaires hiërarchisch zijn opgebouwd, weet het zoekprogramma wel dat als een term hoger in de boomstructuur een equivalent heeft in de ander, de kans groot is dat ook de takken daaronder met elkaar te maken hebben. Zo wordt de hiërarchie van het vocabulaire gebruikt om meer termen te overdekken dan het programma in de eerste plaats vindt. Afhankelijk van wat de eindgebruiker wil, kan hij instellen in welke mate correctheid en volledigheid van het gezochte belangrijk zijn. Een scholier die een scriptie schrijft, zal al blij zijn als hij 50 goede artikelen vindt van een collectie van 100, terwijl een wetenschapper ze alle 100 wil vinden, ook als hij daarvoor van de 150 zoekresultaten er zelf handmatig 50 moet wegstrepen.

Hoe goed werkt de methode? Van Harmelen: “Als we de parameters heel conservatief instellen, en alleen maar de 1000 beste antwoorden opvragen, dan blijkt daarvan 90% correct te zijn. Dat is op zich mooi, maar we missen dan natuurlijk heel veel antwoorden die ook goed zijn, maar die niet bij de eerste 1000 zitten. Als we de parameters wat toleranter instellen zodat we meer goede antwoorden terugkrijgen, bijvoorbeeld 70%, dan gaat dat ten koste van de precisie: niet alleen krijgen we dan meer goede antwoorden terug, maar helaas ook meer foute. Ruwweg is dan ongeveer 3 op de 10 antwoorden fout. Dus: 70% precisie op het 70% recall-nivo.”

Vervolgens zijn de resultaten van het zoekprogramma ter controle aan beroepsannotators van de KB gegeven. Zij beoordeelden of de woorden die volgens onze software hetzelfde betekenen ook echt hetzelfde betekenen. “De KB-professionals vormen de gouden standaard voor het ijken van onze statistische methode”, aldus Van Harmelen. “Juist door die nauwe samenwerking met de KB zijn we als een van de eersten in de wereld in staat geweest om onze statistische methode zo goed te gebruiken en zo uitgebreid te evalueren. Veel buitenlandse collega’s publiceerden wel over hun wetenschappelijke methode, maar hadden geen mogelijkheid om die ook uitgebreid te testen op echte catalogi.”

Dit deel van STITCH is inmiddels afgerond. De KB bekijkt nu hoe de wetenschappelijke methode gebruiksklaar kan worden gemaakt. Van Harmelen: “Wij hebben een nieuwe methode ontworpen en getest om in verschillende catalogi tegelijk te zoeken. Nu we hebben laten zien dat het onderliggende wetenschappelijke principe werkt, kan een commerciële partij er echt een product van gaan maken. Dat is niet meer onze taak, en dat begrijpt de KB prima.”

Er bestaat een groot aantal uiteenlopende technieken om verschillende catalogi te integreren: statistiek, logica, taalkunde en zelfs wiskundige grafentheorie. De grote vraag is nu wanneer welke methode het beste werkt. Van Harmelen en zijn onderzoekers werken nu verder aan het beantwoorden van deze overkoepelende vraag. “Als morgen het Van Gogh Museum aankomt met de vraag om verschillende van hun catalogi te integreren, dan willen we een theorie uit de kast kunnen trekken die voorspelt welke methode we het beste kunnen gebruiken. Zo’n theorie bestaat nog niet en daar zoeken we nu naar.”

Europese boekenintegratie
De STITCH-onderzoekers werken ook nog aan een tweede project, dat binnen een groter, Europees kader past. Hier is de uitdaging om de catalogi van de nationale bibliotheken van de EU-landen te integreren. STITCH heeft inmiddels een pilot project achter de rug dat zich richtte op het integreren van de catalogi die middeleeuwse illustraties van de Koninklijke Bibliotheek en de Bibliothèque Nationale de France beschrijven. Het probleem zit niet alleen in het gebruik van verschillende talen. Het zit vooral in een verschillende beschrijving van de wereld van de illustraties.

De KB gebruikt als thesaurus Iconclass, dat sinds de jaren vijftig in Nederland is ontwikkeld. De BNF gebruikt echter haar eigen thesaurus, die Mandragore heet. Waar Iconclass bijvoorbeeld de zoekterm ‘Religion and magic’ gebruikt, doet de Franse Mandragore het met zoektermen als ‘Christianisme’, ‘Autres religions’ en ‘Parapsychologies, occultisme, demonologie…’. STITCH zoekt naar automatische oplossingen om deze twee catalogi te integreren. Daarvoor hoeft geen nieuwe overkoepelende catalogus te worden gemaakt, want dat zou enorm veel extra handwerk vereisen.

In dit geval kon geen statistische methode worden gebruikt omdat er geen objecten waren die in beide collecties voorkwamen. De Franse thesaurus werd nu eerst vertaald, deels met een automatisch woordenboek en deels met een al in het Frans bestaande subthesaurus van Iconclass, die een klein deel van Iconclass in het Frans beschrijft. Het algoritme dat na de vertaalslag zocht naar de overeenkomsten, gebruikte een combinatie van ‘morfologische regels’ en ‘woordafstanden’. Morfologische regels beoordelen op grond van woordvormen (enkelvoud-meervoud; zelfstandig naamwoord; bijvoeglijk naamwoord, samengestelde woorden…) hoe sterk woorden op elkaar lijken. Woordafstanden bepalen een soort wiskundige afstand tussen woorden door te kijken hoeveel bewerkingen er nodig zijn om van het ene woord het andere te maken: hoeveel letters moet je toevoegen, weghalen of veranderen.

De automatische technieken brengen de integratie van internationale boekencollecties van nationale bibliotheken een flinke stap dichterbij. “Met een automatische vergelijking van thesauri kun je op manieren zoeken die met gewone tekstzoekmachines niet kunnen”, besluit van Harmelen. “Bijvoorbeeld meertalig zoeken; het zoeken in collecties die niet uit tekst, maar uit illustraties bestaan; het integreren van collecties en ook het zoeken op basis van domeinkennis.”

De binnen STITCH ontwikkelde technieken zijn zo algemeen dat ze ook buiten het domein van het culturele erfgoed bruikbaar zijn, bijvoorbeeld binnen de geneeskunde, waar vaak ook verschillende termen voor hetzelfde begrip worden gebruikt. Dat is het mooie van wiskunde en informatica: ze leveren gereedschap dat universeel toepasbaar is.

CATCH

STITCH is een van de tien projecten binnen het landelijke onderzoeksprogramma CATCH (Continuous Access To Cultural Heritage). CATCH is een onderzoeksprogramma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) gericht op het digitaal toegankelijk maken van het Nederlandse culturele erfgoed. Dat erfgoed is beschikbaar in de vorm van teksten (zoals logboeken en rijksarchieven), beelden (zoals foto’s, film, tv en schilderijen) en geluiden (zoals radio-uitzendingen). CATCH gaat niet over het omzetten van analoog erfgoed naar een digitale vorm – dat lukt al vrij goed – maar juist om de digitale gegevens beter doorzoekbaar te maken.

In CATCH werken informaticawetenschappers samen met geesteswetenschappers en beheerders bij culturele erfgoedinstellingen zoals de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid en natuurhistorisch museum Naturalis. CATCH ging van start in november 2004 en loopt tot 2009. Het onderzoeksprogramma is onderverdeeld in tien projecten, die elk een onderzoeksteam hebben bestaande uit een promovendus, een postdoc, een wetenschappelijk programmeur, senior onderzoekers van universiteiten en senior stafleden van culturele instellingen.

Internet
Overzicht van alle CATCH-projecten:
www.nwo.nl/catch
STITCH-demo’s:
www.cs.vu.nl/STITCH/demo.html
Demo van de Europese Digitale Bibliotheek:
http://www.europeana.eu/

Honors and Awards

Nomination Eureka book Prize 2008
My book OPGELOST - Toepassingen van wiskunde en informatica (which translates as SOLVED - Applications of mathematics and informatics) was nominated for the Eureka book Prize 2008, for the best popular science book.

Amundsen Competition 2007
In december 2007 I was one of fourteen winners in the Amundsen Competition, an essay competiton organised by the World Federation of Science Journalists for the International Polar Year 2007/2008. The price is a two-weeks trip on board of the Arctic Polar Icebreaker ‘Amundsen’ to the North Pole Area (April 24 - May 8, 2008).

See my weblog: in Dutch or in English

Eureka!-award 2003 for the 2002-editorial board of Natuur & Techniek, for the best media achievement in the field of the public understanding of science in the Netherlands. I was part of the board at that time.

‘Friend of Poland’-award 2003 for two articles: a travel article about Krakow in the ANWB-monthly travel magazine Reizen (july/august 2002) and a biology-article on the primeval forest Bialowieza in the east of Poland, for the scientific monthly Natuur & Techniek (march 2003). The international contest for journalists was organised by Radio Polonia and the Polish Organisation for Tourism in Warsaw.

Quotes

The world looks so different after learning science

Richard Feynman

Science is a way of trying not to fool yourself. The first principle is that you must not fool yourself, and you are the easiest person to fool.

Richard Feynman

Wat is wetenschap? Wetenschap is de titanische poging van het menselijk intellect zich uit zijn kosmische isolement te verlossen door te begrijpen!

Professor Nummedal in de roman Nooit meer slapen van W.F. Hermans

We cook the facts. There are many different techniques for collecting, interpreting and analysing facts, and different techniques often lead to different conclusions, which is why scientists can disagree...When facts challenge our favoured conclusions, we scrutinize them more carefully and subject them to more rigourous analysis.

Psychologist Daniel Gilbert in Stumbling on happiness

The brain is wider than the sky,
For, put them side by side,
The one the other will include
With ease, and you beside.

Emily Dickinson

‘Who are YOU?’ said the Caterpillar. This was not an encouraging opening for a conversation. Alice replied, rather shyly, ‘I – I hardly know, sir, just at present – at least I know who I WAS when I got up this morning, but I think I must have been changed several times since then.’

Alice in Wonderland, Lewis Carroll

Want de ruimte en hij die er vrij doorheen trekt, die zijn de enige ware, dat is het leven, en alles wat op een plaats is versteend en langzaam tot stof vergaat, is dood van den beginne af aan.

J. Slauerhoff

Don't see the world as a market, but rather a place that people live in - you are designing for people, not machines.

Red Burns

Van alle dingen die de mensheid zich sinds haar ontstaan eigen heeft gemaakt, is wetenschap verreweg de meest succesvolle en productieve.

Michio Kaku