Saturday, January 4, 2014

Piek Vossen opent het taaluniversum voor de computer

Taalkundige Piek Vossen probeert de computer taal te leren. Als winnaar van de NWO Spinozapremie 2013 hield hij op 27 november 2013 een keynote-lezing tijdens ICT Open.

Dit artikel is verschenen in I/O Magazine december 2013

Het blijft verbazingwekkend hoe ogenschijnlijk moeiteloos mensen taal begrijpen. Neem bijvoorbeeld deze zin: “De slang sproeit water op de dure das van mijn vader die over de ezel hangt met de mooie tekening van een paard.”

De woorden ‘slang’, ‘water’, ‘dure’, ‘das’, ‘vader’, ‘ezel’, ‘hangt’, ‘mooie’, ‘tekening’ en ‘paard’ hebben elk minimaal twee betekenissen. Combineer alle mogelijke betekenissen, en een rekensom leert dat deze zin in totaal minimaal 77.760 betekenissen heeft. Van verreweg de meeste van deze betekenissen weten we echter meteen dat het geen waarschijnlijke is. Omdat het over een tekening gaat, is bijvoorbeeld de betekenis van het woord ‘ezel’ een ‘schildersezel’, en niet het dier ‘ezel’.

Een computer heeft het hier een stuk moeilijker. Die heeft heeft in beginsel geen idee welke zinsinterpretatie de meest waarschijnlijke is. “De computer zit in een taalgevangenis”, zegt hoogleraar computationele lexicologie Piek Vossen van de Vrije Universiteit Amsterdam. “Hij kan een zin niet koppelen aan de wereld buiten de taal. Als taalonderzoekers proberen wij te bepalen hoe groot die gevangenis is en hoe de computer daar het beste uit komt.”

Woorden die meerdere betekenissen hebben heten ambigu. En precies het onderzoeken van het verschijnsel ambiguïteit wordt de belangrijkste besteding van de 2,5 miljoen euro die Vossen won met de toekenning van de NWO Spinozapremie, de hoogste wetenschappelijke onderscheiding in Nederland. Vossen: “Dankzij de Spinozapremie kan ik een fundamenteel taalprobleem onderzoeken, dat in de gebruikelijke subsidieaanvragen weinig kans heeft om gehonoreerd te worden, juist omdat het zo fundamenteel is en te weinig gericht op directe praktische toepasbaarheid. Het is de context die problemen met ambiguïteit kan oplossen. Soms is die context alleen maar de twee woorden links en rechts, soms is die context de hele zin en soms kan die context de hele tekst zijn. Dankzij de Spinozapremie wil ik met mijn onderzoeksgroep beter in kaart brengen hoe de context de betekenis van een woord bepaalt.”

Een deel van de Spinozapremie gebruikt Vossen trouwens ook voor het aantrekken van een wetenschappelijk programmeur. Vossen: “De universiteit heeft alle IT-ondersteuning gecentraliseerd. Die dienst heeft al zoveel werk dat we er geen beroep op kunnen doen voor onze specifieke ICT-behoefte. Programmeren is voor de meeste van mijn onderzoekers geen kerncompetentie, maar aan de andere kant is goede software cruciaal voor ons werk. Iedereen in mijn groep kan wel tot op zekere hoogte programmeren, maar met een wetenschappelijk programmeur hopen we onze software nog beter te maken.”

Geschiedenisrecorder
Het digitaal beschikbaar komen van enorme hoeveelheden tekst in bijna alle talen van de wereld heeft succesvolle toepassingen van de computationele taalkunde mogelijk gemaakt. Taaltechnologie zoals Google Translate levert in een handomdraai een redelijke vertaling zonder dat het systeem weet wat het vertaalt. Vossen is zelf een van de drijvende krachten achter de ontwikkeling van zogeheten ‘Wordnets’. Een Wordnet is een soort spinnenweb waarin betekenissen van woorden binnen een bepaalde taal hiërarchisch aan elkaar gekoppeld zijn. Dankzij zulke Wordnets kunnen computers beter informatie halen uit nieuwe teksten. Via Wordnets voor verschillende talen kunnen taalonderzoekers ook verschillen in en overeenkomsten tussen talen bestuderen.

Zijn werk aan Wordnets was een belangrijke reden voor de toekenning van de Spinozaprijs eerder dit jaar. Begin november won hij ook nog een onderzoekssubsidie voor een nieuw Big Data-project: de zogeheten ‘geschiedenisrecorder’. De prijs bedraagt aan de ene kant 20.000 euro, en aan de andere kant ook nog twee jaar lang gratis toegang tot de HPC-cloud en de nieuwe nationale supercomputer Cartesius van SURFsara in Amsterdam.

Vossen: “Het idee achter de geschiedenisrecorder is dat de computer nieuwsberichten door de tijd heen aan elkaar koppelt om zo als het ware een verhaal te vertellen. Wij werken samen met de commerciële informatiemakelaar LexisNexis. Dit bedrijf verzamelt dagelijks twee miljoen nieuwsberichten uit zo’n dertigduizend bronnen, waaronder de belangrijkste Europese kranten. Geen mens kan zoveel informatie lezen. Idealiter willen we dat een computer al die nieuwsberichten op één dag analyseert, aan elkaar koppelt en verbanden legt met nieuwsberichten over hetzelfde onderwerp uit het verleden. Dat is het doel van de geschiedenisrecorder.”

Bijvoorbeeld politici of beleidsmakers willen zo snel mogelijk weten wat er waar in de wereld speelt en hoe ze daarop moeten reageren. Zij zouden efficiënter informatie kunnen verzamelen en schiften wanneer ze een instrument zouden hebben waarmee ze automatisch antwoord krijgen op vragen als: ‘Geef me de reeks gebeurtenissen uit de afgelopen tien jaar waarin de directeur van bedrijf X voorkomt’. Of: ‘Geef me alleen die gebeurtenissen die worden verteld door meerderheid van bronnen’. Of juist het tegendeel: ‘Geef me het verhaal dat het meest afwijkt van het gemiddelde’. Uiteindelijk wil Vossen zo nieuwe verhalen naar boven krijgen, die mensen op de traditionele manier misschien niet of niet zo snel zouden vinden.

Toch is zelfs de jongste nationale supercomputer Cartesius bij lange na niet in staat om al die twee miljoen nieuwsberichten per dag te analyseren. Maar Vossen gaat onderzoeken hoe ver hij komt met de huidige technologie. Daarbij loopt hij behalve tegen taalkundige uitdagingen ook tegen ICT-uitdagingen aan. Een belangrijke uitdaging is hoe hij het rekenen aan taal kan opdelen in subproblemen die parallel aan elkaar oplosbaar zijn. Wanneer kan dat wel, en wanneer niet? Welke software-architectuur werkt voor een geschiedenisrecorder optimaal?

Kwantummodel van taal
Vossen wil ook een soort kwantummodel van interpretatie onderzoeken. “Uitkomsten van het ene subprogramma worden doorgegeven aan het andere. Maar elk subprogramma bevat fouten. Nu stapelen al die fouten bij elkaar op. Idealiter willen we dat elk subprogramma zoveel mogelijk interpretaties met een daarbij behorende waarschijnlijkheid openlaat en dat het hoofdprogramma pas aan het eind beslist wat de meest waarschijnlijk interpretatie is. Omdat je pas op het moment dat je gaat kijken bepaalt hoe je het gaat interpreteren, lijkt het op een kwantummodel in de natuurkunde.”

De beste computerinterpretaties van willekeurige teksten maken nog steeds gemiddeld veertig procent fouten en dat komt voornamelijk door het fundamentele probleem van ambiguïteit in taal. “Omdat we dit fundamentele probleem nog niet goed in kaart hebben gebracht”, zegt Vossen, “is het alsof we door een telescoop naar een klein stukje van het taaluniversum kijken en dan denken dat dat het hele taaluniversum is. Daarom is het zo belangrijk beter de vinger te krijgen achter het verschijnsel ambiguïteit.”

Internet
http://vossen.info

----------------------------------

Summary in English:

As a winner of the NWO Spinoza Award 2013, professor in computational lexicology Piek Vossen (Free University Amsterdam) gave a keynote lecture at ICT Open 2013. He is one of the driving forces behind the development of Wordnets, hierarchical networks of the meanings of words. Wordnets are used by computers to improve their understanding of human language. Vossen will use the 2,5 million euro of the Spinoza Award for a fundamental study of the phenomenon of ambiguity in language. Word ambiguity can sometimes lead to even millions of possible interpretations of a single sentence. For another of his projects, the ‘history recorder’, Vossen has received a Big Data-grant and a free two-years use of the new Dutch national supercomputer Cartesius. The aim of the history recorder is that a computer will be able to automatically analyze millions of news articles per day in different languages and to connect them to previous news articles.