Digitaal zoeken in handgeschreven archieven

Saturday, March 8, 2008

Digitaal zoeken in handgeschreven archieven

Hoe kun je op een Google-achtige manier door grote hoeveelheden handgeschreven archiefmateriaal zoeken? Informatici werken samen met natuurhistorisch museum Naturalis en het Nationaal Archief aan machinelerende technieken om dat voor elkaar te krijgen.

Dit artikel is gepubliceerd in Informatieprofessional, maart 2008

Het Nationaal Archief beheert de archieven van het Kabinet der Koningin: dikke boeken met de ministeriële besluiten die de koningin heeft ondertekend. Een groot deel van dit archief is handgeschreven. In het onderzoeksproject SCRATCH (Script Analysis Tools for the Cultural Heritage) werken onderzoekers van de Universiteit van Groningen samen met het Nationaal Archief om in die handgeschreven archieven digitaal te zoeken. Wie bijvoorbeeld een grootvader heeft die gelegerd was in Indonesië, zou op grootvaders naam in de gedigitaliseerde archieven willen zoeken.

Helaas werken bestaande technieken voor het omzetten van analoge in digitale teksten niet voor willekeurig handgeschreven materiaal. De enorme diversiteit van de soort informatie stelt een computer nog voor onoverkomelijke problemen. Alleen in gesloten domeinen, zoals bij de herkenning van kentekenplaten of de herkenning van adresvelden op postenveloppen, lukt het redelijk. Maar hier weet de computer precies welk soort informatie hij voorgeschoteld krijgt.

“Het Kabinet der Koningin heeft ongeveer dertig meter handgeschreven archief, als je alle boeken rug aan rug zet”, vertelt SCRATCH-projectleider Lambert Schomaker van de Universiteit van Groningen. “Wij beloven niet dat we al het handgeschreven materiaal foutloos kunnen omzetten in digitale teksten. Dat is echt nog te moeilijk. Er zit zoveel ruis op de pagina’s: door elkaar lopende letterlussen, inktvlekken, verschillende spatieafstanden tussen woorden. Dat bemoeilijkt automatische herkenning enorm. We staan eigenlijk voor het dilemma of we heel weinig gedigitaliseerde tekst willen, maar dan wel vrijwel exact omgezet, of dat we genoegen nemen met minder exact, maar dan wel heel veel materiaal. Wij hebben voor dat laatste gekozen omdat we denken dat je zo een brede groep van gebruikers kunt bedienen. Wij richten ons in eerste instantie op het ontwikkelen van een techniek die woorden herkent op hun geschreven vorm: het woordbeeld. En die vorm varieert natuurlijk van schrijver tot schrijver.”

De SCRATCH-onderzoekers hebben tot nu toe het hele archief van 1903 eerst gescand als beeldbestanden en daarna automatisch verwerkt tot digitale tekstbestanden. Het systeem is nu getraind op het herkennen van het handschrift van die ene klerk die het materiaal uit 1903 heeft geschreven. Voor historici zit er allerlei interessante informatie tussen. Schomaker: “We komen bijvoorbeeld veel besluiten tegen over grondonteigening. Het blijkt dat in 1903 het spoorwegnetwerk in rap tempo werd uitgebreid. Meer en meer plaatsen werden opgenomen in het treinnetwerk, en daarvoor waren veel grondonteigeningsprocedures nodig.”

Annotatie speelt een cruciale rol in het SCRATCH-onderzoek. Schomaker: “Om het handgeschreven archief te ontsluiten, combineren we de specialistische kennis van medewerkers van het Nationaal Archief met onze machinelerende software. Daarvoor bieden we hen via het web ons gedigitaliseerde archiefmateriaal aan. Stapje voor stapje verbeteren de medewerkers vervolgens de annotatie door foute zoekresultaten te corrigeren. Zij annoteren eerst de pagina’s, dan de regels en ten slotte de woorden. Nu hebben we zo’n 29.000 geannoteerde regels en 50.000 geannoteerde woorden. Dat is al een goudmijn. Elk woordlabel vertelt of een woord een plaatsnaam is een eigennaam, enzovoort. Hierop laten we onze technieken van patroonherkenning en kunstmatige intelligentie los. Vervolgens kun je bijvoorbeeld zoeken op een persoonsnaam of een plaatsnaam. Twee medewerkers van het Nationaal Archief gebruiken ons systeem nu om de annotaties van de eindgebruikers te controleren. Er is nu ook voor gezorgd dat we een grote nieuwe collectie kunnen digitaliseren. Door de collectie van 1903 zijn we namelijk heen. De meest interessante resultaten kunnen we bereiken als we door meerdere jaren heen kunnen zoeken.”

Hebben jullie een Griekse zeeschildpad?
In tegenstelling tot het SCRATCH-project gaat het project MITCH er al vanuit dat de handgeschreven tekst is omgezet naar gedigitaliseerde tekst. In MITCH (Mining for Information in Texts from the Cultural Heritage) werken de Universiteit van Tilburg en Naturalis samen om gedigitaliseerde versies van oude, handgeschreven logboeken handig doorzoekbaar te maken via een Google-achtig zoeksysteem. Museum Naturalis in Leiden bewaart een groot aantal dieren en planten, die de afgelopen eeuwen zijn verzameld. Deze vondsten zijn beschreven in grotendeels handgeschreven logboeken. Biologen noteerden wat ze gevonden dachten te hebben, waar de vondst werd gedaan, hoe, wanneer enzovoort.

“Naturalis heeft zo’n tachtig boeken met reptielen en amfibieën pagina voor pagina gefotografeerd en laten overtikken in digitale bestanden”, vertelt MITCH-projectleider Antal van de Bosch van de Universiteit van Tilburg. “Dan heb je ruwe tekstbestanden, met alle vaagheid en dubbelzinnigheid van natuurlijk taalgebruik. Ons doel is nu om ervoor te zorgen dat natuurhistorici, taxonomen en collectiebeheerders op een handige manier door alle informatie heen kunnen zoeken. Naturalis krijgt bijvoorbeeld als vraag van een ander museum: ‘Hebben jullie een Griekse zeeschildpad in de collectie?’ Dan wil de collectiebeheerder niet alleen ja of nee kunnen antwoorden, maar, als hij die zeeschildpad in de collectie heeft, ook de logboekinformatie van de betreffende vondst erbij geven. Om door die ruwe tekstbestanden heen te zoeken, gebruiken we machinelerende technieken.”

De computer leert aan de hand van tientallen tot honderden voorbeelden om de gedigitaliseerde logboeken volautomatisch in betekenisvolle stukjes te knippen. Elk stukje staat voor een bepaald deel van de beschrijving van een dier of een plant (naam, vindplaats, biotoop, tijdstip…). Een groot probleem is dat geen enkele beschrijving van een vondst zich aan een standaard houdt, en dat het voor een computer moeilijk is om te zien waar het ene deel van de beschrijving ophoudt en het andere begint. Bovendien loopt de computer aan tegen het probleem dat de meeste woorden meerdere betekenissen hebben. Van den Bosch: “In logboeken betekent N.W. meestal ‘noordwest’. Maar soms kan N.W. ook wel eens slaan op de initialen van een persoon. Dit soort problemen komen we overal tegen.”

Van den Bosch laat in een demonstratieversie zien wat het zoeksysteem nu al kan. Tik je de Latijnse naam in voor de Griekse zeeschildpad – Testudo Graeca – dan geeft de Naturaliscollectie acht gevonden zeeschildpadexemplaren. Bij elk resultaat staat de volledige naam van het dier, een foto of een filmpje, de vindplaats en andere relevante informatie. Elk deel van de beschrijving heeft een andere kleur. De vindplaatsen verschijnen ook op een kaart via Google Maps.

Sommige logboeken zijn in de afgelopen vijftien jaar al handmatig omgezet in een digitale database. Dat gebeurt nooit foutloos. Van den Bosch laat het voorbeeld zien van specimen nummer 14655: een slang. Het zoeksysteem toont een lampje als icoon. “Dat betekent dat het systeem waarschijnlijk een fout heeft gevonden. In dit geval heeft iemand ‘amfibie’ ingevoerd, terwijl een slang een reptiel is. Dit is nog een eenvoudige fout, maar er komen allerlei fouten voor die alleen door experts herkend worden. We hebben de museumexpert nodig voor correcties van de metadata. Dat is een vorm van annotatie. Onze geautomatiseerde textmining is dus niet alleen een zoekmachine voor de museumprofessional, maar ook een annotatie-instrument voor de professional om de database te corrigeren.”

Zowel SCRATCH als MITCH ontwikkelen technieken die een veel bredere toepassing hebben dan alleen voor het Nationaal Archief of voor Naturalis. In principe kan de machinelerende software voor alle typen handgeschreven archieven worden gebruikt. Alleen moet de software voor ieder nieuw type archief opnieuw worden getraind in samenwerking met museum- of archiefmedewerkers.

CATCH

CATCH (Continuous Access To Cultural Heritage) is een onderzoeksprogramma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) gericht op het digitaal toegankelijk maken van het Nederlandse culturele erfgoed. Dat erfgoed is beschikbaar in de vorm van teksten (zoals logboeken en rijksarchieven), beelden (zoals foto’s, film, tv en schilderijen) en geluiden (zoals radio-uitzendingen). CATCH gaat niet over het omzetten van analoog erfgoed naar een digitale vorm – dat lukt al vrij goed – maar juist om de digitale gegevens handig doorzoekbaar te maken.

In CATCH werken informaticawetenschappers samen met geesteswetenschappers en beheerders bij culturele erfgoedinstellingen zoals de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid en natuurhistorisch museum Naturalis. CATCH ging van start in november 2004 en loopt tot 2009. Het onderzoeksprogramma is onderverdeeld in tien projecten, die elk een onderzoeksteam hebben bestaande uit een promovendus, een postdoc, een wetenschappelijk programmeur, senior onderzoekers van universiteiten en senior stafleden van culturele instellingen.

Internet
Overzicht van alle CATCH-projecten en een doorverwijzing naar de bijbehorende demo’s: www.nwo.nl/catch
www.ai.rug.nl/~lambert/
http://ilk.uvt.nl/mitch

Honors and Awards

Nomination Eureka book Prize 2008
My book OPGELOST - Toepassingen van wiskunde en informatica (which translates as SOLVED - Applications of mathematics and informatics) was nominated for the Eureka book Prize 2008, for the best popular science book.

Amundsen Competition 2007
In december 2007 I was one of fourteen winners in the Amundsen Competition, an essay competiton organised by the World Federation of Science Journalists for the International Polar Year 2007/2008. The price is a two-weeks trip on board of the Arctic Polar Icebreaker ‘Amundsen’ to the North Pole Area (April 24 - May 8, 2008).

See my weblog: in Dutch or in English

Eureka!-award 2003 for the 2002-editorial board of Natuur & Techniek, for the best media achievement in the field of the public understanding of science in the Netherlands. I was part of the board at that time.

‘Friend of Poland’-award 2003 for two articles: a travel article about Krakow in the ANWB-monthly travel magazine Reizen (july/august 2002) and a biology-article on the primeval forest Bialowieza in the east of Poland, for the scientific monthly Natuur & Techniek (march 2003). The international contest for journalists was organised by Radio Polonia and the Polish Organisation for Tourism in Warsaw.

Quotes

The world looks so different after learning science

Richard Feynman

Science is a way of trying not to fool yourself. The first principle is that you must not fool yourself, and you are the easiest person to fool.

Richard Feynman

Wat is wetenschap? Wetenschap is de titanische poging van het menselijk intellect zich uit zijn kosmische isolement te verlossen door te begrijpen!

Professor Nummedal in de roman Nooit meer slapen van W.F. Hermans

We cook the facts. There are many different techniques for collecting, interpreting and analysing facts, and different techniques often lead to different conclusions, which is why scientists can disagree...When facts challenge our favoured conclusions, we scrutinize them more carefully and subject them to more rigourous analysis.

Psychologist Daniel Gilbert in Stumbling on happiness

The brain is wider than the sky,
For, put them side by side,
The one the other will include
With ease, and you beside.

Emily Dickinson

‘Who are YOU?’ said the Caterpillar. This was not an encouraging opening for a conversation. Alice replied, rather shyly, ‘I – I hardly know, sir, just at present – at least I know who I WAS when I got up this morning, but I think I must have been changed several times since then.’

Alice in Wonderland, Lewis Carroll

Want de ruimte en hij die er vrij doorheen trekt, die zijn de enige ware, dat is het leven, en alles wat op een plaats is versteend en langzaam tot stof vergaat, is dood van den beginne af aan.

J. Slauerhoff

Don't see the world as a market, but rather a place that people live in - you are designing for people, not machines.

Red Burns

Van alle dingen die de mensheid zich sinds haar ontstaan eigen heeft gemaakt, is wetenschap verreweg de meest succesvolle en productieve.

Michio Kaku