Wednesday, August 27, 2008

Het virtuele museum opent alle deuren

Hoe kan een museum niet alleen de beschrijvingen van haar voorwerpen, maar ook alle aanvullende informatie erover digitaal doorzoekbaar maken met één zoeksysteem? Onderzoekers van de Universiteit van Amsterdam zoeken samen met het Gemeentemuseum Den Haag naar een oplossing.

Dit artikel is gepubliceerd in Informatieprofessional september 2008

Het Gemeentemuseum Den Haag heeft een grote collectie moderne kunst, waaronder de grootste verzameling Mondriaan-schilderijen ter wereld. Daarnaast heeft het museum prenten, modevoorwerpen en muziekinstrumenten. Elk voorwerp uit de collectie wordt op allerlei manieren beschreven met aanvullende informatie. In totaal beschikt het museum over ruim 100.000 objectbeschrijvingen, zo’n 250.000 bibliografische beschrijvingen, zoals boeken, artikelen en multimediaobjecten, en driekwart miljoen aanvullende archiefbeschrijvingen, zoals stukken uit het tentoonstellingsarchief.

Veel van deze informatie is nu nog moeilijk toegankelijk. Niet alleen zou de museumprofessional graag met één zoeksysteem door alle drie de soorten beschrijvingen zoeken, het is ook interessant voor de geïnteresseerde leek. Een liefhebber van de Victory Boogie Woogie van Piet Mondriaan, wil misschien ook wel meer weten over achtergronden bij de aankoop van het schilderij, de correspondentie over het schilderij met het museum, de achtergronden van tentoonstellingen waar het schilderij heeft gehangen, of over uitleenrechten. Zo kan hij op eigen houtje door al deze de informatie zoeken om zijn eigen verhaal over het schilderij en de schilder te creëren.

Onderzoekers van de Universiteit van Amsterdam (UvA) werken samen met het Gemeentemuseum aan de ontwikkeling van zo’n zoeksysteem in het project MUSEUM, afkorting voor Multiple-collection Searching Using Metadata.

Moderne gebruiker
De bedoeling is om in een keer alle deuren van het virtuele museum te openen, vertelt MUSEUM-projectleider Jaap Kamps van de UvA: “Je opent zowel de beschrijvingen van de collectie als die van het depot. Het idee van een virtueel museum voorziet ook in de behoefte van de moderne museumbezoeker. Die wil zelf zoeken, kiezen en beslissen. Hij wil niet alleen meer afhankelijk zijn van wat hem wordt voorgeschoteld. En juist omdat de interpretatie zo’n belangrijke rol in de kunst speelt, willen mensen van verschillende kanten informatie vergaren.”

Het Gemeentemuseum heeft al veel van haar beschrijvingen gedigitaliseerd. Om daarin te zoeken, gebruikt het museum nu het Kroniek-systeem. De basis daarvan is de tentoonstellingsdocumentatie die sinds de jaren zeventig centraal wordt bijgehouden. Alle documenten en objecten die een rol spelen bij een bepaalde tentoonstelling van het Gemeentemuseum worden verzameld en ontsloten door de documentatieafdeling. In de dagelijkse praktijk is deze systematiek langzamerhand verder ontwikkeld en toegepast op alle activiteiten, personen, collecties en gebouwen van het Gemeentemuseum.

De Kroniek is in feite een samenvoeging van alle inhoudelijke ontsluitingsystemen die in het museum worden gebruikt. Dat kent echter talloze nadelen. De gebruiker heeft al relatief veel kennis en ervaring nodig om er mee om te gaan; de zoekresultaten zijn verre van optimaal en niet op relevantie gerangschikt; en het systeem heeft moeite met het combineren van resultaten uit verschillende subdatabestanden, omdat die vaak in verschillende formaten zijn gemaakt.

Pilotversie
“Wij willen een zoeksysteem ontwikkelen dat duidelijk beter presteert dan Kroniek”, zegt Kamps. “En dat kan ook met de huidige stand van de informatica. De vraag waar we voor staan is hoe een gebruiker handig kan zoeken in deze grote berg heterogene metadata. Daarbij is ons uitgangspunt dat we één systeem zoeken voor alle collecties; een eenvoudig te gebruiken interface en een rangschikking van zoekresultaten van meer dan minder relevant, zoals moderne zoekmachines dat kunnen.”

Een belangrijke belemmering bij de ontwikkeling van zo’n zoeksysteem is dat de beschrijvingen op verschillende manieren zijn opgebouwd, door verschillende mensen zijn gemaakt, voor verschillende doelen en vaak ook nog in uiteenlopende jaren. Een beschrijving uit de jaren zeventig is in het algemeen op een andere manier opgesteld dan eentje van dit jaar. Een beschrijving bestaat uit velden die een bepaald type informatie geven, bijvoorbeeld een kunstenaar, een kunstwerk, een auteur, een titel, een tentoonstelling en een jaar. Maar de ene beschrijving over hetzelfde onderwerp kan uit andere velden bestaan dan de andere beschrijving.

Het MUSEUM-project loopt inmiddels ruim twee jaar, en gaat nog twee jaar door, tot april 2010. De onderzoekers hebben tot nu toe een basiszoeksysteem ontwikkeld, CatchUp genaamd, dat ook al uitgebreid is geëvalueerd. Dit basissysteem kan in principe zowel door museumprofessionals als door gewoon publiek worden gebruikt, in tegenstelling tot het bestaande Kroniek-zoeksysteem. Kamps: “Als test hebben we 66 documenten uit de collectie gekozen, en geprobeerd die terug te vinden met ons zoeksysteem en met de Kroniek. Dan vindt CatchUp meer relevante documenten dan Kroniek. Bovendien werkt dit zoeksysteem sneller en rangschikt het de resultaten op relevantie. Voor een gebruiker die tevreden is dat hij al iets vindt bij zijn zoekvraag, voldoet het basissysteem al. Maar voor gebruikers die echt alles willen vinden wat er beschikbaar is, is het nog lang niet optimaal.”

Het essentiële verschil tussen Kroniek en CatchUp is dat van een database versus een zoekmachine. Kroniek is een databasesysteem, bestaande uit drie onafhankelijke systemen voor objectenbeschrijvingen, documentatie en het tentoonstellingsarchief. Elk heeft een eigen complexe structuur. Je moet je als gebruiker aanpassen aan het systeem. Eerst moet je weten in welk van de drie databases je moet zoeken, en in welk veld. En dan moet je een exacte zoekopdracht opgeven, met als resultaat de verzameling beschrijvingen die precies overeenkomt met de zoekopdracht. Kroniek levert een werkbaar systeem op voor de expertgebruikers, die over voldoende voorkennis beschikken, en voldoende geduld om alle stappen te doorlopen.

CatchUp werkt anders. Het is een zoekmachine die relevante informatie, ongeacht de herkomst, als een op relevantie geordende lijst weergeeft. Hier is het systeem aangepast aan de gebruikers: gebruikers kunnen hun informatiebehoefte uitdrukken op de voor hen meest natuurlijke manier, en het systeem tracht de voor hen meest relevante resultaten te vinden. In de eerste versie van het systeem is een standaard rangschikkingsalgoritme gebruikt (Apache/Lucene: http://lucene.apache.org/), dat geen rekening houdt met de specifieke inhoud en gebruikscontext. Dit blijkt reeds een werkbaar systeem op te leveren, zonder dat het specifieke voorkennis van gebruikers vereist, noch een engelengeduld.

In de huidige versie worden zowel de data als de metadata als vrije tekst beschouwd, en met tekst-retrievalalgoritmen gerangschikt. “In de volgende versie,” zegt Kamps, “als we de waarde van metadata velden kunnen evalueren, kunnen we gebruik maken van de structuur van de data. Of dit leidt tot algemene verbetering is een open vraag.”

Klikgedrag analyseren
Een specifieke evaluatie op 66 vooraf geselecteerde documenten, zegt nog maar weinig over hoe goed het zoeksysteem in het algemeen werkt, voor een willekeurige gebruiker. Maar het is een begin. Het onderzoek richt zich momenteel op de vraag hoe de basisversie verbeterd kan worden. Daarvoor wordt aan de ene kant onderzocht of zoekresultaat nummer 1 ook werkelijk het beste is, en zoekresultaat nummer 2 werkelijk het een-na-beste; en aan de andere kant ook of het zoeksysteem belangrijke resultaten over het hoofd ziet.

Voor een realistischere evaluatie analyseren de onderzoekers nu het klikgedrag van gebruikers van de museumwebsite. Veel websites gebruiken transactielogs. Die houden bij welke zoektermen gebruikers intoetsen en hoe ze vervolgens door de webinformatie heen klikken. Deze methode passen de MUSEUM-onderzoekers toe op een deel van de website van het Gemeentemuseum, dat 1300 voorwerpen uit haar collectie bevat. “Over een periode van anderhalf jaar hebben we klikgegevens van gebruikers van de museumwebsite verzameld”, zegt Kamps. “Zo krijgen we gegevens van echte gebruikers die echte informatiebehoeften hebben. De evaluatie hiervan wordt komend najaar afgerond.”

Via een analyse van het klikgedrag kunnen de onderzoekers ook in detail analyseren welk belang bepaalde beschrijvingsvelden hebben en welk belang contextinformatie, zoals relaties tussen verschillende objecten, heeft. Kamps: “Deze analyse zal ongetwijfeld leiden tot verdere verfijning van het zoeksysteem, zowel door algemene verbeteringen als door aanpassingen voor een specifieke gebruikscontext.”

Virtueel museum
Op grond van deze evaluatie wordt dan in de tweede helft van het MUSEUM-project een volgende versie van het zoeksysteem gebouwd. Bij de evaluatie hiervan zullen de museumprofessionals een belangrijke rol spelen. Hun expertkennis is nodig om de zwakke punten van de zoekmachine op te sporen en te verbeteren. Parallel daaraan willen de onderzoekers samen met het Gemeentemuseum een online experimenteeromgeving creëren waar nieuwe ideeën voor het verbeteren van het zoeksysteem getest kunnen worden. Kamps verwacht dat er uiteindelijk twee zoeksystemen zullen ontstaan, een specifiek gericht op museumprofessionals en een voor een breder publiek. De vragen van experts gaan namelijk meestal een of twee stappen verder dan de vragen gewone bezoekers.

De huidige informatiezoektechnologie biedt volop mogelijkheden om het idee van een virtueel museum, dat al zijn collectie- en archiefdeuren openzet, werkelijkheid te maken. Maar, zo benadrukt Kamps, voor het realiseren van een goed virtueel museum speelt niet de technologie de doorslaggevende rol, maar de museumprofessionals, zoals de curatoren en de informatieprofessionals. Alleen als zij met hun specifieke kennis meehelpen aan het bouwen en evalueren van een zoekmachine, kan niet alleen de zoekmachine maar ook het virtuele museum een succes worden.


CATCH

MUSEUM is een van de tien projecten binnen het landelijke onderzoeksprogramma CATCH (Continuous Access To Cultural Heritage). CATCH is een onderzoeksprogramma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) gericht op het digitaal toegankelijk maken van het Nederlandse culturele erfgoed. Dat erfgoed is beschikbaar in de vorm van teksten (zoals logboeken en rijksarchieven), beelden (zoals foto’s, film, tv en schilderijen) en geluiden (zoals radio-uitzendingen). CATCH gaat niet over het omzetten van analoog erfgoed naar een digitale vorm – daar is al veel onderzoek naar verricht – maar is erop gericht om digitale gegevens beter doorzoekbaar te maken.

In CATCH werken informaticawetenschappers samen met geesteswetenschappers en beheerders bij culturele erfgoedinstellingen zoals de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid en natuurhistorisch museum Naturalis. CATCH ging van start in november 2004 en loopt tot 2009. Elk van de tien onderzoeksprogramma’s heeft een onderzoeksteam bestaande uit een promovendus, een postdoc, een wetenschappelijk programmeur, senior onderzoekers van universiteiten en senior stafleden van culturele instellingen.

Internet
Overzicht van alle CATCH-projecten:
www.nwo.nl/catch
MUSEUM:
http://nwo.nl/catch/museum/