Wednesday, August 27, 2008

Zoeken in plaatjes en praatjes

Wat zou het handig zijn als je net zo snel kunt zoeken in beeld- en geluidcollecties als dat nu al kan in teksten. Informatici hebben inmiddels de eerste demonstratieversies ontwikkeld om te zoeken in historische audiofragmenten en in afbeeldingen van archeologische vondsten.

Dit artikel is gepubliceerd in Informatieprofessional juli/augustus 2008

Vorig jaar werden de Radio-Oranjetoespraken van Koningin Wilhelmina uit de Tweede Wereldoorlog online doorzoekbaar op trefwoorden. Wie bijvoorbeeld als zoekwoord ‘Rotterdam’ intikt, krijgt een reeks van audiofragmenten voorgeschoteld waarin koningin Wilhelmina de maasstad noemt. In april van dit jaar werden ook 38 filmopnames van interviews met Nederlandse overlevenden van het concentratiekamp Buchenwald op deze manier doorzoekbaar. Dit googelen in gesproken geschiedenis is mogelijk gemaakt door het onderzoeksproject CHoral (Access to oral history), een samenwerking tussen informatici van de Universiteit Twente, het Gemeentearchief Rotterdam, Radio Rijnmond, het NIOD en de Erasmus Universiteit Rotterdam.

Audiovisueel erfgoedmateriaal met spraakherkenning doorzoekbaar maken is om talloze redenen een lastige opgave: het Nederlands uit het verleden is anders dan dat van nu; elke spreker heeft zijn eigen intonatie en zijn eigen woordenschat; achtergrondgeluiden kunnen roet in het eten gooien; de opname kan vol ruis zitten, enzovoort. “Maar”, zegt Franciska de Jong, projectleider van CHoral en hoogleraar taaltechnologie en computerlinguïstiek aan de Universiteit Twente, “wij zijn er niet voor de perfecte oplossing – die bestaat ook helemaal niet – onze taak is om meer uit audiovisuele erfgoedcollecties te halen dan mogelijk is met conventionele ontsluiting.”

De Jong en haar medeonderzoekers richten zich op de herkenning van informatieve spraak, zoals in documentaires of in nieuwsuitzendingen. Die zijn van nature rustiger en begrijpelijker dan bijvoorbeeld discussies. Voor nieuwsfragmenten halen de beste spraakherkenners een foutenmarge van onder de twintig procent. Dat betekent dat twee op de tien woorden verkeerd worden herkend. Helaas is audiomateriaal van erfgoedcollecties veel lastiger te ontrafelen. Hierbij wordt al snel meer dan de helft van de woorden verkeerd of niet herkend.

De Jong: “Dat lijkt misschien een slecht resultaat, maar uit onderzoek blijkt dat je daarmee toch een goede zoekbasis hebt. Dat komt omdat de spraakherkenner de meeste fouten maakt bij functiewoorden zoals ‘de’, ‘toen’, ‘omdat’, enzovoort. En dat zijn geen woorden waarop je wilt zoeken. Bovendien keren belangrijke woorden vaak meerdere keren in fragmenten terug. Als een woord de ene keer wel en de andere keer niet wordt herkend, is de kans toch groot dat je het juiste fragment vindt.”

Transcriptie
Het optimaliseren van de spraakherkenning is uiteraard essentieel. Onderzoekers van de Universiteit Twente hebben een eigen open source spraakherkenner gebouwd. Die knipt eerst alle deelfragmenten die geen spraak zijn weg. Vervolgens gebruikt hij een akoestisch model voor het herkennen van het geluid. En ten slotte beslist een taalmodel welk woord met de grootste waarschijnlijkheid wordt uitgesproken. Het eindresultaat is een geschreven versie van het gesproken woord. De spraakherkenner brengt automatisch tijdcodes aan in het transcript. Elk zoekwoord correspondeert zo met een tijdcode, waardoor de computer automatisch naar een audiofragment kan springen.

De spraakherkenner gebruikt een woordenboek waaruit hij kan putten om te bepalen welk woord er wordt uitgesproken. Dat woordenboek kan worden aangepast al naar gelang het soort materiaal. De Jong: “De kunst is om al het beschikbare materiaal dat extra informatie geeft over de gesproken tekst optimaal te gebruiken. In het geval van de Radio Oranje-fragmenten hadden we bijvoorbeeld ook de uitgeschreven toespraken van koningin Wilhelmina. Dan heb je al een transcriptie, en hoef je alleen nog maar te bepalen op welk tijd wat wordt uitgesproken. Meestal bestaat zo’n transcriptie natuurlijk niet, maar vaak bestaat er wel al een geschreven samenvatting. Dat is mooi materiaal om de spraakherkenner te trainen op een specifiek domein; om hem bekend te maken met specifieke eigennamen, plaatsnamen en ander domeinspecifiek vocabulaire. Hoe meer informatie we hebben, hoe kleiner het probleem van de spraakherkenning.”

De volgende uitdaging CHoral is om het Radio Rijnmond-archief te ontsluiten. Radio Rijnmond heeft veel documentairemateriaal uit de naoorlogse opbouwperiode van Rotterdam. Maar omdat er weinig annotatie beschikbaar is, heeft de spraakherkenner het bij deze radiodocumentaires veel moeilijker dan bij de Buchenwald-interviews. Een tweede uitdaging is om er achter komen wat gebruikers precies willen en op welke manier je de zoekresultaten het beste kunt presenteren. Met of zonder de uitgeschreven tekst? Met of zonder aanvullend beeldmateriaal erbij? Online-gebruikers willen immers vaak ook wat hebben om naar te kijken, en niet alleen het audiofragment.

Zoeken met spraakherkenning biedt veel mogelijkheden, maar vergt wel een denkomslag bij de informatieprofessionals. Zij hebben niet meer de garantie hebben dat ze alles vinden. “Maar,” besluit De Jong, “ondanks dat spraakherkenning niet perfect werkt, kun je audiomateriaal veel efficiënter doorzoeken dan zonder deze technologie.”

Glaswerk en munten
Is het herkennen van het gesproken woord al moeilijk, het herkennen van beelden is nog een graad ingewikkelder. Probleem is dat er nog meer aspecten tegelijk een rol spelen dan bij geluid: kleur, vorm, textuur, lichtinval enzovoort. In het project RICH (Reading Images in the Cultural Heritage) werken onderzoekers van de Universiteit Maastricht samen met de Rijksdienst voor Archeologie, Cultuurlandschap en Monumenten (RACM) aan de beeldherkenning van archeologische bodemschatten.

“Beeldherkenning moet de archeoloog ondersteunen bij het classificeren van zijn vondsten”, zegt projectleider en hoogleraar informatica Eric Postma van de Universiteit Maastricht. “De bedoeling is dat een computer een nieuwe vondst automatisch vergelijkt met eerdere vondsten, waarvan al veel informatie is opgeslagen. Het gaat er niet om dat de computer de expert vervangt – dat is onmogelijk – maar dat de computer de expert ondersteunt. Voor de herkenning en interpretatie van bepaalde details van een vondst zullen experts altijd nodig blijven.”

Inmiddels is RICH halverwege en hebben de onderzoekers twee demonstratieversies gereed: eentje voor de herkenning van glaswerk (met als referentie de digitale RACM-collectie Historisch Glas), en eentje voor de herkenning van Romeinse en Merovingische munten (met een referentiecollectie uit het Nederlandse Munten- en Penningenkabinet). Met de glaswerkdemo kan de gebruiker op bijvoorbeeld vorm, type en periode browsen door de collectie. Ook kan de gebruiker een digitale foto van zijn eigen glaswerk uploaden, waarna de computer de meest gelijkende stukken glaswerk in de referentiecollectie opzoekt en toont. Hetzelfde browsen en uploaden kan ook bij de muntencollectie.

De onderzoekers combineren beeldherkenning met automatische leertechnieken. De beeldherkenning moet ervoor zorgen dat beelden die sterk op elkaar lijken zodanig in digitale informatie worden omgezet dat ook de gedigitaliseerde gegevens sterk op elkaar lijken. De automatische leertechnieken gebruiken specifieke domeinkennis over glaswerk of munten om de gedigitaliseerde gegevens zo goed mogelijk te kunnen interpreteren. Daarbij wordt bijvoorbeeld gebruik gemaakt van de vorm van het glas, patronen op het glas of van de kleur en textuur bij munten. Hoe goed de beeldherkenning werkt, hangt sterk af van de dataverzameling, en varieert van tientallen procenten tot maximaal negentig procent.

Kennis expliciet maken
Het moeilijkste binnen RICH is om de veelal impliciete kennis die archeologen bij het herkennen van hun vondsten gebruiken om te zetten in expliciete regels, die een computer kan toepassen. Daarbij is de hulp van de experts essentieel. Postma: “Zij moeten ons zo goed mogelijk proberen uit te leggen waar ze bij de herkenning op letten. Archeologen hebben verder minder behoefte aan een antwoord op een vraag als ‘Wat is de meest gelijkende munt?’ maar meer aan een antwoord op de vraag ‘Waarom is dit de meest gelijkende munt?’ Ze willen weten welke kenmerken wel of niet overeenkomen tussen de vondsten.” Postma benadrukt dat het om een wederzijds proces gaat: “De archeologen kunnen van ons leren wat ze aan informatica kunnen hebben, en wij kunnen van de archeologen leren waaraan zij behoefte hebben.”

In de komende twee jaar willen de RICH-onderzoekers de resultaten van hun demonstratieversies laten evalueren door experts. Postma is tevreden over de resultaten met het glaswerk, maar tot nu toe hebben te weinig glasexperts naar de resultaten gekeken om hun werk te evalueren. Een tweede uitdaging is om het digitaliseren van archeologische vondsten verregaand te automatiseren. Een van de problemen is namelijk de beperkte beschikbaarheid van hoogkwalitatief beeldmateriaal. Liefst moet die digitalisatie zo gebeuren dat een object op het beeldscherm kan ronddraaien zodat ook de computer het van alle kanten kan bekijken.

Een derde uitdaging zit in het samenvoegen van het zoeken in tekst en het zoeken in beeld. Dat gebeurt binnen het Open Boek-project, een samenwerking van RICH met het MITCH-project (een ander project binnen het overkoepelende nationale onderzoek om het Nederlandse culturele erfgoed digitaal te ontsluiten (zie kader)). Stel dat een archeoloog glaswerk uit de Middeleeuwen vindt, dan kan hij niet alleen zijn vondst qua beeld vergelijken met wat al is gevonden uit die tijd, maar hij kan tegelijk ook zoeken in teksten op trefwoorden die betrekking hebben op zijn vondst.

Postma: “Mijn ideaal is dat de toekomstige archeoloog met een laptop naar de opgraving gaat, ter plekke foto’s neemt van de bodemschatten, deze draadloos naar een server stuurt, waarna de computer de bodemschatten vergelijkt met eerder gedocumenteerde vondsten, en de archeoloog ook meteen aanvullende tekstuele informatie kan opvragen.”


CATCH

CHoral en RICH zijn twee van de tien projecten binnen het landelijke onderzoeksprogramma CATCH (Continuous Access To Cultural Heritage). CATCH is een onderzoeksprogramma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) gericht op het digitaal toegankelijk maken van het Nederlandse culturele erfgoed. Dat erfgoed is beschikbaar in de vorm van teksten (zoals logboeken en rijksarchieven), beelden (zoals foto’s, film, tv en schilderijen) en geluiden (zoals radio-uitzendingen). CATCH gaat niet over het omzetten van analoog erfgoed naar een digitale vorm – daar is al veel onderzoek naar verricht – maar is erop gericht om digitale gegevens beter doorzoekbaar te maken.

In CATCH werken informaticawetenschappers samen met geesteswetenschappers en beheerders bij culturele erfgoedinstellingen zoals de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid en natuurhistorisch museum Naturalis. CATCH ging van start in november 2004 en loopt tot 2009. Elk van de tien onderzoeksprogramma’s heeft een onderzoeksteam bestaande uit een promovendus, een postdoc, een wetenschappelijk programmeur, senior onderzoekers van universiteiten en senior stafleden van culturele instellingen.

Internet
Overzicht van alle CATCH-projecten:
www.nwo.nl/catch
CHoral:
http://hmi.ewi.utwente.nl/choral/
Demo Radio Oranje:
http://hmi.ewi.utwente.nl/choral/radiooranje.html
Demo Buchenwald-interviews:
www.buchenwald.nl/
RICH:
www.rich.unimaas.nl/
RICH-demo’s:
www.referentiecollectie.nl/rich/