Saturday, March 8, 2008

Digitaal zoeken in handgeschreven archieven

Hoe kun je op een Google-achtige manier door grote hoeveelheden handgeschreven archiefmateriaal zoeken? Informatici werken samen met natuurhistorisch museum Naturalis en het Nationaal Archief aan machinelerende technieken om dat voor elkaar te krijgen.

Dit artikel is gepubliceerd in Informatieprofessional, maart 2008


Het Nationaal Archief beheert de archieven van het Kabinet der Koningin: dikke boeken met de ministeriële besluiten die de koningin heeft ondertekend. Een groot deel van dit archief is handgeschreven. In het onderzoeksproject SCRATCH (Script Analysis Tools for the Cultural Heritage) werken onderzoekers van de Universiteit van Groningen samen met het Nationaal Archief om in die handgeschreven archieven digitaal te zoeken. Wie bijvoorbeeld een grootvader heeft die gelegerd was in Indonesië, zou op grootvaders naam in de gedigitaliseerde archieven willen zoeken.

Helaas werken bestaande technieken voor het omzetten van analoge in digitale teksten niet voor willekeurig handgeschreven materiaal. De enorme diversiteit van de soort informatie stelt een computer nog voor onoverkomelijke problemen. Alleen in gesloten domeinen, zoals bij de herkenning van kentekenplaten of de herkenning van adresvelden op postenveloppen, lukt het redelijk. Maar hier weet de computer precies welk soort informatie hij voorgeschoteld krijgt.

“Het Kabinet der Koningin heeft ongeveer dertig meter handgeschreven archief, als je alle boeken rug aan rug zet”, vertelt SCRATCH-projectleider Lambert Schomaker van de Universiteit van Groningen. “Wij beloven niet dat we al het handgeschreven materiaal foutloos kunnen omzetten in digitale teksten. Dat is echt nog te moeilijk. Er zit zoveel ruis op de pagina’s: door elkaar lopende letterlussen, inktvlekken, verschillende spatieafstanden tussen woorden. Dat bemoeilijkt automatische herkenning enorm. We staan eigenlijk voor het dilemma of we heel weinig gedigitaliseerde tekst willen, maar dan wel vrijwel exact omgezet, of dat we genoegen nemen met minder exact, maar dan wel heel veel materiaal. Wij hebben voor dat laatste gekozen omdat we denken dat je zo een brede groep van gebruikers kunt bedienen. Wij richten ons in eerste instantie op het ontwikkelen van een techniek die woorden herkent op hun geschreven vorm: het woordbeeld. En die vorm varieert natuurlijk van schrijver tot schrijver.”

De SCRATCH-onderzoekers hebben tot nu toe het hele archief van 1903 eerst gescand als beeldbestanden en daarna automatisch verwerkt tot digitale tekstbestanden. Het systeem is nu getraind op het herkennen van het handschrift van die ene klerk die het materiaal uit 1903 heeft geschreven. Voor historici zit er allerlei interessante informatie tussen. Schomaker: “We komen bijvoorbeeld veel besluiten tegen over grondonteigening. Het blijkt dat in 1903 het spoorwegnetwerk in rap tempo werd uitgebreid. Meer en meer plaatsen werden opgenomen in het treinnetwerk, en daarvoor waren veel grondonteigeningsprocedures nodig.”

Annotatie speelt een cruciale rol in het SCRATCH-onderzoek. Schomaker: “Om het handgeschreven archief te ontsluiten, combineren we de specialistische kennis van medewerkers van het Nationaal Archief met onze machinelerende software. Daarvoor bieden we hen via het web ons gedigitaliseerde archiefmateriaal aan. Stapje voor stapje verbeteren de medewerkers vervolgens de annotatie door foute zoekresultaten te corrigeren. Zij annoteren eerst de pagina’s, dan de regels en ten slotte de woorden. Nu hebben we zo’n 29.000 geannoteerde regels en 50.000 geannoteerde woorden. Dat is al een goudmijn. Elk woordlabel vertelt of een woord een plaatsnaam is een eigennaam, enzovoort. Hierop laten we onze technieken van patroonherkenning en kunstmatige intelligentie los. Vervolgens kun je bijvoorbeeld zoeken op een persoonsnaam of een plaatsnaam. Twee medewerkers van het Nationaal Archief gebruiken ons systeem nu om de annotaties van de eindgebruikers te controleren. Er is nu ook voor gezorgd dat we een grote nieuwe collectie kunnen digitaliseren. Door de collectie van 1903 zijn we namelijk heen. De meest interessante resultaten kunnen we bereiken als we door meerdere jaren heen kunnen zoeken.”

Hebben jullie een Griekse zeeschildpad?
In tegenstelling tot het SCRATCH-project gaat het project MITCH er al vanuit dat de handgeschreven tekst is omgezet naar gedigitaliseerde tekst. In MITCH (Mining for Information in Texts from the Cultural Heritage) werken de Universiteit van Tilburg en Naturalis samen om gedigitaliseerde versies van oude, handgeschreven logboeken handig doorzoekbaar te maken via een Google-achtig zoeksysteem. Museum Naturalis in Leiden bewaart een groot aantal dieren en planten, die de afgelopen eeuwen zijn verzameld. Deze vondsten zijn beschreven in grotendeels handgeschreven logboeken. Biologen noteerden wat ze gevonden dachten te hebben, waar de vondst werd gedaan, hoe, wanneer enzovoort.

“Naturalis heeft zo’n tachtig boeken met reptielen en amfibieën pagina voor pagina gefotografeerd en laten overtikken in digitale bestanden”, vertelt MITCH-projectleider Antal van de Bosch van de Universiteit van Tilburg. “Dan heb je ruwe tekstbestanden, met alle vaagheid en dubbelzinnigheid van natuurlijk taalgebruik. Ons doel is nu om ervoor te zorgen dat natuurhistorici, taxonomen en collectiebeheerders op een handige manier door alle informatie heen kunnen zoeken. Naturalis krijgt bijvoorbeeld als vraag van een ander museum: ‘Hebben jullie een Griekse zeeschildpad in de collectie?’ Dan wil de collectiebeheerder niet alleen ja of nee kunnen antwoorden, maar, als hij die zeeschildpad in de collectie heeft, ook de logboekinformatie van de betreffende vondst erbij geven. Om door die ruwe tekstbestanden heen te zoeken, gebruiken we machinelerende technieken.”

De computer leert aan de hand van tientallen tot honderden voorbeelden om de gedigitaliseerde logboeken volautomatisch in betekenisvolle stukjes te knippen. Elk stukje staat voor een bepaald deel van de beschrijving van een dier of een plant (naam, vindplaats, biotoop, tijdstip…). Een groot probleem is dat geen enkele beschrijving van een vondst zich aan een standaard houdt, en dat het voor een computer moeilijk is om te zien waar het ene deel van de beschrijving ophoudt en het andere begint. Bovendien loopt de computer aan tegen het probleem dat de meeste woorden meerdere betekenissen hebben. Van den Bosch: “In logboeken betekent N.W. meestal ‘noordwest’. Maar soms kan N.W. ook wel eens slaan op de initialen van een persoon. Dit soort problemen komen we overal tegen.”

Van den Bosch laat in een demonstratieversie zien wat het zoeksysteem nu al kan. Tik je de Latijnse naam in voor de Griekse zeeschildpad – Testudo Graeca – dan geeft de Naturaliscollectie acht gevonden zeeschildpadexemplaren. Bij elk resultaat staat de volledige naam van het dier, een foto of een filmpje, de vindplaats en andere relevante informatie. Elk deel van de beschrijving heeft een andere kleur. De vindplaatsen verschijnen ook op een kaart via Google Maps.

Sommige logboeken zijn in de afgelopen vijftien jaar al handmatig omgezet in een digitale database. Dat gebeurt nooit foutloos. Van den Bosch laat het voorbeeld zien van specimen nummer 14655: een slang. Het zoeksysteem toont een lampje als icoon. “Dat betekent dat het systeem waarschijnlijk een fout heeft gevonden. In dit geval heeft iemand ‘amfibie’ ingevoerd, terwijl een slang een reptiel is. Dit is nog een eenvoudige fout, maar er komen allerlei fouten voor die alleen door experts herkend worden. We hebben de museumexpert nodig voor correcties van de metadata. Dat is een vorm van annotatie. Onze geautomatiseerde textmining is dus niet alleen een zoekmachine voor de museumprofessional, maar ook een annotatie-instrument voor de professional om de database te corrigeren.”

Zowel SCRATCH als MITCH ontwikkelen technieken die een veel bredere toepassing hebben dan alleen voor het Nationaal Archief of voor Naturalis. In principe kan de machinelerende software voor alle typen handgeschreven archieven worden gebruikt. Alleen moet de software voor ieder nieuw type archief opnieuw worden getraind in samenwerking met museum- of archiefmedewerkers.


CATCH

CATCH (Continuous Access To Cultural Heritage) is een onderzoeksprogramma van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) gericht op het digitaal toegankelijk maken van het Nederlandse culturele erfgoed. Dat erfgoed is beschikbaar in de vorm van teksten (zoals logboeken en rijksarchieven), beelden (zoals foto’s, film, tv en schilderijen) en geluiden (zoals radio-uitzendingen). CATCH gaat niet over het omzetten van analoog erfgoed naar een digitale vorm – dat lukt al vrij goed – maar juist om de digitale gegevens handig doorzoekbaar te maken.

In CATCH werken informaticawetenschappers samen met geesteswetenschappers en beheerders bij culturele erfgoedinstellingen zoals de Koninklijke Bibliotheek, het Nederlands Instituut voor Beeld en Geluid en natuurhistorisch museum Naturalis. CATCH ging van start in november 2004 en loopt tot 2009. Het onderzoeksprogramma is onderverdeeld in tien projecten, die elk een onderzoeksteam hebben bestaande uit een promovendus, een postdoc, een wetenschappelijk programmeur, senior onderzoekers van universiteiten en senior stafleden van culturele instellingen.


Internet
Overzicht van alle CATCH-projecten en een doorverwijzing naar de bijbehorende demo’s: www.nwo.nl/catch
www.ai.rug.nl/~lambert/
http://ilk.uvt.nl/mitch