Tuesday, March 26, 2013

Museumzoekmachine MuS vindt wat Google niet vindt

Zoekmachine MuS maakt de collectiebeschrijvingen van het Gemeentemuseum Den Haag voor iedereen digitaal doorzoekbaar. MuS is het eindresultaat van het project MuSeUMPlus, een samenwerking van het Gemeentemuseum met de Universiteit van Amsterdam.


Dit artikel is gepubliceerd in I/O Magazine, maart 2013

Het Gemeentemuseum Den Haag bezit een grote collectie moderne kunst, mode, muziekinstrumenten en kunstnijverheid zoals keramiek, glas, zilverwerk en meubels. Het museum bezit schilderijen van onder andere Pablo Picasso, Claude Monet, Francis Bacon en van de Nederlandse kunstenaars Piet Mondriaan, Theo Doesburg, Bart van der Leck en Charley Toorop. De Mondriaan-collectie van het Gemeentemuseum is zelfs de grootste ter wereld, met als topstuk Mondriaans laatste schilderij: de Victory Boogie Woogie.

Elk voorwerp uit de collectie is door museummedewerkers beschreven met aanvullende informatie. In totaal beschikt het museum over ruim 100.000 objectbeschrijvingen, zo’n 250.000 bibliografische beschrijvingen (zoals boeken, artikelen en multimediaobjecten) en driekwart miljoen aanvullende archiefbeschrijvingen (zoals stukken uit het tentoonstellingsarchief). Veel van deze informatie is alleen toegankelijk voor museummedewerkers. Zelfs voor ’s werelds meest gebruikte en krachtigste zoekmachine, Google, is deze informatie terra incognita. Een zoekmachine die wel door al die beschrijvingen kan zoeken, zou niet alleen van toegevoegde waarde zijn voor museumprofessionals, maar ook voor geïnteresseerde buitenstaanders en museumbezoekers.

Neem een liefhebber van Mondriaans Victory Boogie Woogie. Hij wil misschien ook wel meer weten over bijvoorbeeld de achtergronden bij de aankoop van het schilderij en de achtergronden van tentoonstellingen waar het schilderij heeft gehangen. Nu nog zit er niets anders op dan het museum aan te schrijven en te hopen dat een museummedewerker bereid is om de gevraagde informatie op te zoeken, op te schrijven en op te sturen. Zowel voor de liefhebber als voor het museum zou het efficiënter zijn wanneer de liefhebber zelf door al deze informatie kan zoeken.

Gecombineerd zoeken
Onderzoekers van de Universiteit van Amsterdam (UvA) werkten de afgelopen jaren samen met het Gemeentemuseum aan de ontwikkeling van zo’n zoekmachine. Tussen 2004 en 2009 gebeurde dat in het project MuSeUM (Multiple-collection Searching Using Metadata); van 2009 tot en met 2012 in het vervolgproject MuSeUMPlus. Van dat laatste project zijn de resultaten net afgerond. “In MuSeUM lag de nadruk op wetenschappelijk onderzoek”, vertelt Vincent de Keijzer, projectcoördinator van de afdeling digitale media van het Gemeentemuseum Den Haag. “De resultaten bestonden uit theoretische modellen en aanbevelingen, maar nog niet een product of een instrument dat het Gemeentemuseum kon toepassen.”

Het vervolgproject MuSeUMPLus had dan ook tot doel om de wetenschappelijke resultaten van MuSeUm om te zetten in een werkende zoekmachine voor erfgoedcollecties in het algemeen en voor het Gemeentemuseum in het bijzonder. UvA-onderzoeker en universitair docent Marijn Koolen was verantwoordelijk voor de wetenschappelijke kant van zowel MuSeUM als MuSeUMPlus. Hij mocht een kopie maken van alle digitale gegevens over de gehele collectie van het Gemeentemuseum en deze gegevens gebruiken om uit de zoeken hoe de beste museumzoekmachine er uit zou moeten zien. Wat is de beste zoekmethode? Hoe kan de zoekmachine de resultaten het beste presenteren? Aan welke eisen moet de zoekmachine voldoen om zowel voor externen als voor interne professionals van toegevoegde waarde te zijn?

“Voor erfgoeddata in een museum kun je grofweg aan twee heel verschillende zoekstrategieën denken”, zegt Koolen. “De database-methode gaat uit van collectiebeschrijvingen die in gespecificeerde velden in een database staan beschreven. Daarin komen velden voor zoals de maker van het object, het jaar waarin het object is gemaakt, waar het is gemaakt, etcetera. Dit is de gestructureerde zoekmethode. De andere methode is de Google-methode: met statistische technieken door één enkele grote databerg zoeken zonder dat vooraf is gespecificeerd welk stukje van die berg over welk type informatie gaat. Binnen het MuSeUM-project had ik laten zien dat een zoekmachine die beide combineert − dus zowel het gestructureerde als het ongestructureerde − het meest geschikt is.”

Een gebruiker die wil zoeken op de naam van de schilder Mondriaan zou in de database-methode eerst moet aangeven dat hij binnen een bepaald veld, bijvoorbeeld het veld ‘maker van het voorwerp’, wil zoeken. De Google-methode zoekt op alle gedigitaliseerde informatie op de naam van Mondriaan. “Museumprofessionals zijn opgeleid met het denken in gestructureerde, ideale databases”, zegt de Keijzer. “Maar wat mij betreft is de wereld van de schone database een idee-fixe. In de praktijk zijn databases altijd vervuild. Ze zijn onvolledig, sommige beschrijvingen staan niet op de juiste plek, andere beschrijvingen zijn verouderd en weer andere beschrijvingen zijn gewoon verkeerd ingevoerd of verkeerd omgezet bij de overgang van een oude op een nieuwe database.”

Zoekmachine MuS
De resultaten van de projecten MuSeUM en MuSeUMPlus zijn nu uitgekristalliseerd in zoekmachine MuS. De rudimentaire zoekmachine die Marijn Koolen bouwde, is door externe ontwikkelaars getransformeerd in een praktisch werkende zoekmachine met een handig interface: Jur de Vries (Triquanta) werkte aan de praktische implementatie van de zoekmachine; Frodo Schering (Frodo Schering Interactive Design) en Volkan Florchinger (Rhizom) bouwden het interface. Koolen: “MuS is generiek opgezet waardoor hij binnen elke database kan zoeken. Verder is de zoekmachine geïntegreerd in het platform Geméén, een platform voor professionals van het Gemeentemuseum waarin zij de zoekresultaten van MuS kunnen bewerken en beheren.” 

De Keijzer geeft een demonstratie van zoekmachine MuS en het platform Geméén. “Stel, ik ben geïnteresseerd in Noord-Nederlandse merklappen”, en hij tikt als zoekterm ‘Noord-Nederlandse merklappen’ in. (Merklappen zijn borduurwerken die ter oefening worden gebruikt.) Net zoals in Google, verschijnen in een handomdraai de zoekresultaten: 512 in dit geval, net als in Google geordend op relevantie. Het is een lange lijst met plaatjes van merklappen en de bijbehorende beschrijvingen zoals ze in de XML-database van het museum staan. “De gebruiker kan zijn zoektermen ook ‘kleuren’”, zegt de Keijzer. “Met een kleurtje kan hij aangeven of een deel van een zoekterm een Wie, Wat, Waar, Wanneer of Hoe is. Hij kan ‘Noord-Nederlandse’ kleuren als een Waar, en merklappen als een Wat. Als ik de zoekmachine dan weer laat zoeken, dan houdt hij rekening met die specificaties.”

Voorlopig kunnen alleen museummedewerkers MuS gebruiken. “Voor extern gebruik zouden we het interface waarschijnlijk nog iets moeten vereenvoudigen, maar technisch gezien is dat geen enkel probleem”, zegt de Keijzer. “Het grootste probleem is niet technisch of wetenschappelijk van aard, maar menselijk. Er bestaat weerstand tegen ongestructureerd zoeken. Bibliothecarissen, documentalisten en informatieprofessionals in het algemeen, zijn opgeleid in de filosofie van ideale, gestructureerde databases.”

“Met het ongestructureerde, Google-achtige zoeken trappen we tegen heilige huisjes aan van de klassieke informatieprofessional” vult Marijn Koolen aan. “Aan de UvA geef ik college information-retrieval en daar merk ik dat ook in de reacties.” Maar misschien sluit het ongestructureerde zoeken wel veel meer aan bij de natuurlijke manier waarop het menselijk brein zoekt dan informatieprofessionals denken. Koolen: “Vijf mensen die dezelfde vraag stellen, bedoelen vaak alle vijf verschillende dingen. En: als je op dinsdag een beschrijving van een museumstuk opschrijft, dan denk je er op woensdag misschien al weer anders over.”

Koud-watervrees
Naast de weerstand tegen ongestructureerd zoeken, bestaat er binnen musea ook weerstand tegen het zoeken zonder toezicht, het open gooien van alle informatie. De Keijzer: “Musea willen controle houden over wat ze mensen wel en niet aanbieden. Maar in een tijd waarin meer en meer informatie via het internet toegankelijk is, rammelt het publiek ook aan onze deur. Mensen zoeken informatie. En als het museum ze niet laten zoeken, dan gaan ze wel ergens anders heen. Dan gaat alles langs ons heen en dat zou zonde zijn.”

“Neem de merklappen”, vervolgt de Keijzer. “Nederland heeft een vereniging van mensen die geïnteresseerd zijn in merklappen. Het Gemeentemuseum heeft merklappen in haar collectie, maar die hebben niet de prioriteit van onze conservatoren. De mensen van die vereniging zouden dolgraag willen zoeken in onze collectie, maar dat kan nu niet. Ik vind het onze taak onze informatie ook voor hen open te stellen.”

MuS is de oplossing, daarvan zijn de Keijzer en Koolen overtuigd. De volgende stap is nu om de museumdirecties ervan te overtuigen dat de koud-watervrees om erfgoedinformatie doorzoekbaar te maken voor het algemene publiek ongegrond is. En dat ook museumprofessionals dankzij een zoekmachine zoals MuS meer kunnen vinden dan ze nu kunnen. De Keijzer: “Met het platform Geméén en met zoekmachine Mus willen we een nieuwe testomgeving gaan bouwen voor meerdere databases. Daarmee willen we aantonen wat de meerwaarde is van een zoekmachine voor onze erfgoeddata.”

[kader:]
CATCHplus

CATCHplus is de opvolger van het landelijke NWO-onderzoeksprogramma CATCH (Continuous Access To Cultural Heritage). CATCH was de eerste onderzoeksstap op weg naar het digitaal toegankelijk maken van cultureel erfgoed zoals schilderijen, beelden, rijksarchieven, logboeken, foto’s, films en tv- en radio-uitzendingen. De resultaten van CATCH bestonden voornamelijk uit theoretische modellen, ideeën en aanbevelingen. CATCHplus heeft een brug geslagen tussen academisch onderzoek en praktische toepassing. In CATCHplus werden prototypes en demo’s uit CATCH-deelprojecten verder ontwikkeld tot bruikbare software. Dit is weer een belangrijke stap op weg naar het ideaal van één Digitale Collectie Nederland.

CATCHplus liep van 2009 tot en met 2012 en er werkten de volgende erfgoedinstellingen aan mee: Rijksmuseum Amsterdam, Amsterdam Museum, Meertens Instituut, Gemeentemuseum Den Haag, Rijksdienst voor het Cultureel Erfgoed, Nationaal Archief, Instituut voor Beeld en Geluid, Koninklijke Bibliotheek, Naturalis, Theaterinstituut Nederland en Gemeentearchief Rotterdam. Deze erfgoedinstellingen werkten samen met bedrijven en met zes kennisinstellingen: Digitaal Erfgoed Nederland (DEN), Universiteit van Groningen, Universiteit van Amsterdam,Vrije Universiteit, Universiteit van Tilburg, Universiteit Twente. CATCHplus ontving in totaal 3,1 miljoen euro subsidie van het interdepartementale Programma Implementatie Agenda ICT-Beleid (PRIMA), het Ministerie van Onderwijs, Cultuur en Wetenschap en de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO).

Summary in English:
Within the project MuSeUMPlus the generic search engine MuS has been developed. MuS can be used to search through the object-, library- and archive-databases of the Gemeentemuseum Den Haag. MuS has been developed to be used both by museum professionals and by the general public. MuS combines two very different search strategies: a structured way of searching in structured databases and a Google-like method for searching in an unstructured pile of data, without having to know beforehand which part of the pile represents which type of data. MuS was developed between 2009 and the end of 2012 by a cooperation of the Gemeentemuseum Den Haag, the University of Amsterdam and companies specialized in software development. MuSeUMPlus is part of the initiative CATCHplus, which aims at digitally opening up all the cultural heritage owned by Dutch public museums, libraries and archives.

Internet