Zoeken in plaatjes en praatjes

Wednesday, August 27, 2008

Zoeken in plaatjes en praatjes

Wat zou het handig zijn als je net zo snel kunt zoeken in beeld- en geluidcollecties als dat nu al kan in teksten. Informatici hebben inmiddels de eerste demonstratieversies ontwikkeld om te zoeken in historische audiofragmenten en in afbeeldingen van archeologische vondsten.

Dit artikel is gepubliceerd in Informatieprofessional juli/augustus 2008

Vorig jaar werden de Radio-Oranjetoespraken van Koningin Wilhelmina uit de Tweede Wereldoorlog online doorzoekbaar op trefwoorden. Wie bijvoorbeeld als zoekwoord ‘Rotterdam’ intikt, krijgt een reeks van audiofragmenten voorgeschoteld waarin koningin Wilhelmina de maasstad noemt. In april van dit jaar werden ook 38 filmopnames van interviews met Nederlandse overlevenden van het concentratiekamp Buchenwald op deze manier doorzoekbaar. Dit googelen in gesproken geschiedenis is mogelijk gemaakt door het onderzoeksproject CHoral (Access to oral history), een samenwerking tussen informatici van de Universiteit Twente, het Gemeentearchief Rotterdam, Radio Rijnmond, het NIOD en de Erasmus Universiteit Rotterdam.

Audiovisueel erfgoedmateriaal met spraakherkenning doorzoekbaar maken is om talloze redenen een lastige opgave: het Nederlands uit het verleden is anders dan dat van nu; elke spreker heeft zijn eigen intonatie en zijn eigen woordenschat; achtergrondgeluiden kunnen roet in het eten gooien; de opname kan vol ruis zitten, enzovoort. “Maar”, zegt Franciska de Jong, projectleider van CHoral en hoogleraar taaltechnologie en computerlinguïstiek aan de Universiteit Twente, “wij zijn er niet voor de perfecte oplossing – die bestaat ook helemaal niet – onze taak is om meer uit audiovisuele erfgoedcollecties te halen dan mogelijk is met conventionele ontsluiting.”

De Jong en haar medeonderzoekers richten zich op de herkenning van informatieve spraak, zoals in documentaires of in nieuwsuitzendingen. Die zijn van nature rustiger en begrijpelijker dan bijvoorbeeld discussies. Voor nieuwsfragmenten halen de beste spraakherkenners een foutenmarge van onder de twintig procent. Dat betekent dat twee op de tien woorden verkeerd worden herkend. Helaas is audiomateriaal van erfgoedcollecties veel lastiger te ontrafelen. Hierbij wordt al snel meer dan de helft van de woorden verkeerd of niet herkend.

De Jong: “Dat lijkt misschien een slecht resultaat, maar uit onderzoek blijkt dat je daarmee toch een goede zoekbasis hebt. Dat komt omdat de spraakherkenner de meeste fouten maakt bij functiewoorden zoals ‘de’, ‘toen’, ‘omdat’, enzovoort. En dat zijn geen woorden waarop je wilt zoeken. Bovendien keren belangrijke woorden vaak meerdere keren in fragmenten terug. Als een woord de ene keer wel en de andere keer niet wordt herkend, is de kans toch groot dat je het juiste fragment vindt.”

Transcriptie
Het optimaliseren van de spraakherkenning is uiteraard essentieel. Onderzoekers van de Universiteit Twente hebben een eigen open source spraakherkenner gebouwd. Die knipt eerst alle deelfragmenten die geen spraak zijn weg. Vervolgens gebruikt hij een akoestisch model voor het herkennen van het geluid. En ten slotte beslist een taalmodel welk woord met de grootste waarschijnlijkheid wordt uitgesproken. Het eindresultaat is een geschreven versie van het gesproken woord. De spraakherkenner brengt automatisch tijdcodes aan in het transcript. Elk zoekwoord correspondeert zo met een tijdcode, waardoor de computer automatisch naar een audiofragment kan springen.

De spraakherkenner gebruikt een woordenboek waaruit hij kan putten om te bepalen welk woord er wordt uitgesproken. Dat woordenboek kan worden aangepast al naar gelang het soort materiaal. De Jong: “De kunst is om al het beschikbare materiaal dat extra informatie geeft over de gesproken tekst optimaal te gebruiken. In het geval van de Radio Oranje-fragmenten hadden we bijvoorbeeld ook de uitgeschreven toespraken van koningin Wilhelmina. Dan heb je al een transcriptie, en hoef je alleen nog maar te bepalen op welk tijd wat wordt uitgesproken. Meestal bestaat zo’n transcriptie natuurlijk niet, maar vaak bestaat er wel al een geschreven samenvatting. Dat is mooi materiaal om de spraakherkenner te trainen op een specifiek domein; om hem bekend te maken met specifieke eigennamen, plaatsnamen en ander domeinspecifiek vocabulaire. Hoe meer informatie we hebben, hoe kleiner het probleem van de spraakherkenning.”

De volgende uitdaging CHoral is om het Radio Rijnmond-archief te ontsluiten. Radio Rijnmond heeft veel documentairemateriaal uit de naoorlogse opbouwperiode van Rotterdam. Maar omdat er weinig annotatie beschikbaar is, heeft de spraakherkenner het bij deze radiodocumentaires veel moeilijker dan bij de Buchenwald-interviews. Een tweede uitdaging is om er achter komen wat gebruikers precies willen en op welke manier je de zoekresultaten het beste kunt presenteren. Met of zonder de uitgeschreven tekst? Met of zonder aanvullend beeldmateriaal erbij? Online-gebruikers willen immers vaak ook wat hebben om naar te kijken, en niet alleen het audiofragment.

Zoeken met spraakherkenning biedt veel mogelijkheden, maar vergt wel een denkomslag bij de informatieprofessionals. Zij hebben niet meer de garantie hebben dat ze alles vinden. “Maar,” besluit De Jong, “ondanks dat spraakherkenning niet perfect werkt, kun je audiomateriaal veel efficiënter doorzoeken dan zonder deze technologie.”

Glaswerk en munten
Is het herkennen van het gesproken woord al moeilijk, het herkennen van beelden is nog een graad ingewikkelder. Probleem is dat er nog meer aspecten tegelijk een rol spelen dan bij geluid: kleur, vorm, textuur, lichtinval enzovoort. In het project RICH (Reading Images in the Cultural Heritage) werken onderzoekers van de Universiteit Maastricht samen met de Rijksdienst voor Archeologie, Cultuurlandschap en Monumenten (RACM) aan de beeldherkenning van archeologische bodemschatten.

“Beeldherkenning moet de archeoloog ondersteunen bij het classificeren van zijn vondsten”, zegt projectleider en hoogleraar informatica Eric Postma van de Universiteit Maastricht. “De bedoeling is dat een computer een nieuwe vondst automatisch vergelijkt met eerdere vondsten, waarvan al veel informatie is opgeslagen. Het gaat er niet om dat de computer de expert vervangt – dat is onmogelijk – maar dat de computer de expert ondersteunt. Voor de herkenning en interpretatie van bepaalde details van een vondst zullen experts altijd nodig blijven.”

Inmiddels is RICH halverwege en hebben de onderzoekers twee demonstratieversies gereed: eentje voor de herkenning van glaswerk (met als referentie de digitale RACM-collectie Historisch Glas), en eentje voor de herkenning van Romeinse en Merovingische munten (met een referentiecollectie uit het Nederlandse Munten- en Penningenkabinet). Met de glaswerkdemo kan de gebruiker op bijvoorbeeld vorm, type en periode browsen door de collectie. Ook kan de gebruiker een digitale foto van zijn eigen glaswerk uploaden, waarna de computer de meest gelijkende stukken glaswerk in de referentiecollectie opzoekt en toont. Hetzelfde browsen en uploaden kan ook bij de muntencollectie.

De onderzoekers combineren beeldherkenning met automatische leertechnieken. De beeldherkenning moet ervoor zorgen dat beelden die sterk op elkaar lijken zodanig in digitale informatie worden omgezet dat ook de gedigitaliseerde gegevens sterk op elkaar lijken. De automatische leertechnieken gebruiken specifieke domeinkennis over glaswerk of munten om de gedigitaliseerde gegevens zo goed mogelijk te kunnen interpreteren. Daarbij wordt bijvoorbeeld gebruik gemaakt van de vorm van het glas, patronen op het glas of van de kleur en textuur bij munten. Hoe goed de beeldherkenning werkt, hangt sterk af van de dataverzameling, en varieert van tientallen procenten tot maximaal negentig procent.

Kennis expliciet maken
Het moeilijkste binnen RICH is om de veelal impliciete kennis die archeologen bij het herkennen van hun vondsten gebruiken om te zetten in expliciete regels, die een computer kan toepassen. Daarbij is de hulp van de experts essentieel. Postma: “Zij moeten ons zo goed mogelijk proberen uit te leggen waar ze bij de herkenning op letten. Archeologen hebben verder minder behoefte aan een antwoord op een vraag als ‘Wat is de meest gelijkende munt?’ maar meer aan een antwoord op de vraag ‘Waarom is dit de meest gelijkende munt?’ Ze willen weten welke kenmerken wel of niet overeenkomen tussen de vondsten.” Postma benadrukt dat het om een wederzijds proces gaat: “De archeologen kunnen van ons leren wat ze aan informatica kunnen hebben, en wij kunnen van de archeologen leren waaraan zij behoefte hebben.”

In de komende twee jaar willen de RICH-onderzoekers de resultaten van hun demonstratieversies laten evalueren door experts. Postma is tevreden over de resultaten met het glaswerk, maar tot nu toe hebben te weinig glasexperts naar de resultaten gekeken om hun werk te evalueren. Een tweede uitdaging is om het digitaliseren van archeologische vondsten verregaand te automatiseren. Een van de problemen is namelijk de beperkte beschikbaarheid van hoogkwalitatief beeldmateriaal. Liefst moet die digitalisatie zo gebeuren dat een object op het beeldscherm kan ronddraaien zodat ook de computer het van alle kanten kan bekijken.

Een derde uitdaging zit in het samenvoegen van het zoeken in tekst en het zoeken in beeld. Dat gebeurt binnen het Open Boek-project, een samenwerking van RICH met het MITCH-project (een ander project binnen het overkoepelende nationale onderzoek om het Nederlandse culturele erfgoed digitaal te ontsluiten (zie kader)). Stel dat een archeoloog glaswerk uit de Middeleeuwen vindt, dan kan hij niet alleen zijn vondst qua beeld vergelijken met wat al is gevonden uit die tijd, maar hij kan tegelijk ook zoeken in teksten op trefwoorden die betrekking hebben op zijn vondst.

Postma: “Mijn ideaal is dat de toekomstige archeoloog met een laptop naar de opgraving gaat, ter plekke foto’s neemt van de bodemschatten, deze draadloos naar een server stuurt, waarna de computer de bodemschatten vergelijkt met eerder gedocumenteerde vondsten, en de archeoloog ook meteen aanvullende tekstuele informatie kan opvragen.”

CATCH

CHoral en RICH zijn twee van de tien projecten binnen het landelijke onderzoeksprogramma CATCH (Continuous Access To Cultural Heritage). CATCH is een onderzoeksprogramma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) gericht op het digitaal toegankelijk maken van het Nederlandse culturele erfgoed. Dat erfgoed is beschikbaar in de vorm van teksten (zoals logboeken en rijksarchieven), beelden (zoals foto’s, film, tv en schilderijen) en geluiden (zoals radio-uitzendingen). CATCH gaat niet over het omzetten van analoog erfgoed naar een digitale vorm – daar is al veel onderzoek naar verricht – maar is erop gericht om digitale gegevens beter doorzoekbaar te maken.

In CATCH werken informaticawetenschappers samen met geesteswetenschappers en beheerders bij culturele erfgoedinstellingen zoals de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid en natuurhistorisch museum Naturalis. CATCH ging van start in november 2004 en loopt tot 2009. Elk van de tien onderzoeksprogramma’s heeft een onderzoeksteam bestaande uit een promovendus, een postdoc, een wetenschappelijk programmeur, senior onderzoekers van universiteiten en senior stafleden van culturele instellingen.

Internet
Overzicht van alle CATCH-projecten:
www.nwo.nl/catch
CHoral:
http://hmi.ewi.utwente.nl/choral/
Demo Radio Oranje:
http://hmi.ewi.utwente.nl/choral/radiooranje.html
Demo Buchenwald-interviews:
www.buchenwald.nl/
RICH:
www.rich.unimaas.nl/
RICH-demo’s:
www.referentiecollectie.nl/rich/

Honors and Awards

Nomination Eureka book Prize 2008
My book OPGELOST - Toepassingen van wiskunde en informatica (which translates as SOLVED - Applications of mathematics and informatics) was nominated for the Eureka book Prize 2008, for the best popular science book.

Amundsen Competition 2007
In december 2007 I was one of fourteen winners in the Amundsen Competition, an essay competiton organised by the World Federation of Science Journalists for the International Polar Year 2007/2008. The price is a two-weeks trip on board of the Arctic Polar Icebreaker ‘Amundsen’ to the North Pole Area (April 24 - May 8, 2008).

See my weblog: in Dutch or in English

Eureka!-award 2003 for the 2002-editorial board of Natuur & Techniek, for the best media achievement in the field of the public understanding of science in the Netherlands. I was part of the board at that time.

‘Friend of Poland’-award 2003 for two articles: a travel article about Krakow in the ANWB-monthly travel magazine Reizen (july/august 2002) and a biology-article on the primeval forest Bialowieza in the east of Poland, for the scientific monthly Natuur & Techniek (march 2003). The international contest for journalists was organised by Radio Polonia and the Polish Organisation for Tourism in Warsaw.

Quotes

The world looks so different after learning science

Richard Feynman

Science is a way of trying not to fool yourself. The first principle is that you must not fool yourself, and you are the easiest person to fool.

Richard Feynman

Wat is wetenschap? Wetenschap is de titanische poging van het menselijk intellect zich uit zijn kosmische isolement te verlossen door te begrijpen!

Professor Nummedal in de roman Nooit meer slapen van W.F. Hermans

We cook the facts. There are many different techniques for collecting, interpreting and analysing facts, and different techniques often lead to different conclusions, which is why scientists can disagree...When facts challenge our favoured conclusions, we scrutinize them more carefully and subject them to more rigourous analysis.

Psychologist Daniel Gilbert in Stumbling on happiness

The brain is wider than the sky,
For, put them side by side,
The one the other will include
With ease, and you beside.

Emily Dickinson

‘Who are YOU?’ said the Caterpillar. This was not an encouraging opening for a conversation. Alice replied, rather shyly, ‘I – I hardly know, sir, just at present – at least I know who I WAS when I got up this morning, but I think I must have been changed several times since then.’

Alice in Wonderland, Lewis Carroll

Want de ruimte en hij die er vrij doorheen trekt, die zijn de enige ware, dat is het leven, en alles wat op een plaats is versteend en langzaam tot stof vergaat, is dood van den beginne af aan.

J. Slauerhoff

Don't see the world as a market, but rather a place that people live in - you are designing for people, not machines.

Red Burns

Van alle dingen die de mensheid zich sinds haar ontstaan eigen heeft gemaakt, is wetenschap verreweg de meest succesvolle en productieve.

Michio Kaku