Piek Vossen opent het taaluniversum voor de computer

Saturday, January 4, 2014

Piek Vossen opent het taaluniversum voor de computer

Taalkundige Piek Vossen probeert de computer taal te leren. Als winnaar van de NWO Spinozapremie 2013 hield hij op 27 november 2013 een keynote-lezing tijdens ICT Open.

Dit artikel is verschenen in I/O Magazine december 2013

Het blijft verbazingwekkend hoe ogenschijnlijk moeiteloos mensen taal begrijpen. Neem bijvoorbeeld deze zin: “De slang sproeit water op de dure das van mijn vader die over de ezel hangt met de mooie tekening van een paard.”

De woorden ‘slang’, ‘water’, ‘dure’, ‘das’, ‘vader’, ‘ezel’, ‘hangt’, ‘mooie’, ‘tekening’ en ‘paard’ hebben elk minimaal twee betekenissen. Combineer alle mogelijke betekenissen, en een rekensom leert dat deze zin in totaal minimaal 77.760 betekenissen heeft. Van verreweg de meeste van deze betekenissen weten we echter meteen dat het geen waarschijnlijke is. Omdat het over een tekening gaat, is bijvoorbeeld de betekenis van het woord ‘ezel’ een ‘schildersezel’, en niet het dier ‘ezel’.

Een computer heeft het hier een stuk moeilijker. Die heeft heeft in beginsel geen idee welke zinsinterpretatie de meest waarschijnlijke is. “De computer zit in een taalgevangenis”, zegt hoogleraar computationele lexicologie Piek Vossen van de Vrije Universiteit Amsterdam. “Hij kan een zin niet koppelen aan de wereld buiten de taal. Als taalonderzoekers proberen wij te bepalen hoe groot die gevangenis is en hoe de computer daar het beste uit komt.”

Woorden die meerdere betekenissen hebben heten ambigu. En precies het onderzoeken van het verschijnsel ambiguïteit wordt de belangrijkste besteding van de 2,5 miljoen euro die Vossen won met de toekenning van de NWO Spinozapremie, de hoogste wetenschappelijke onderscheiding in Nederland. Vossen: “Dankzij de Spinozapremie kan ik een fundamenteel taalprobleem onderzoeken, dat in de gebruikelijke subsidieaanvragen weinig kans heeft om gehonoreerd te worden, juist omdat het zo fundamenteel is en te weinig gericht op directe praktische toepasbaarheid. Het is de context die problemen met ambiguïteit kan oplossen. Soms is die context alleen maar de twee woorden links en rechts, soms is die context de hele zin en soms kan die context de hele tekst zijn. Dankzij de Spinozapremie wil ik met mijn onderzoeksgroep beter in kaart brengen hoe de context de betekenis van een woord bepaalt.”

Een deel van de Spinozapremie gebruikt Vossen trouwens ook voor het aantrekken van een wetenschappelijk programmeur. Vossen: “De universiteit heeft alle IT-ondersteuning gecentraliseerd. Die dienst heeft al zoveel werk dat we er geen beroep op kunnen doen voor onze specifieke ICT-behoefte. Programmeren is voor de meeste van mijn onderzoekers geen kerncompetentie, maar aan de andere kant is goede software cruciaal voor ons werk. Iedereen in mijn groep kan wel tot op zekere hoogte programmeren, maar met een wetenschappelijk programmeur hopen we onze software nog beter te maken.”

Geschiedenisrecorder
Het digitaal beschikbaar komen van enorme hoeveelheden tekst in bijna alle talen van de wereld heeft succesvolle toepassingen van de computationele taalkunde mogelijk gemaakt. Taaltechnologie zoals Google Translate levert in een handomdraai een redelijke vertaling zonder dat het systeem weet wat het vertaalt. Vossen is zelf een van de drijvende krachten achter de ontwikkeling van zogeheten ‘Wordnets’. Een Wordnet is een soort spinnenweb waarin betekenissen van woorden binnen een bepaalde taal hiërarchisch aan elkaar gekoppeld zijn. Dankzij zulke Wordnets kunnen computers beter informatie halen uit nieuwe teksten. Via Wordnets voor verschillende talen kunnen taalonderzoekers ook verschillen in en overeenkomsten tussen talen bestuderen.

Zijn werk aan Wordnets was een belangrijke reden voor de toekenning van de Spinozaprijs eerder dit jaar. Begin november won hij ook nog een onderzoekssubsidie voor een nieuw Big Data-project: de zogeheten ‘geschiedenisrecorder’. De prijs bedraagt aan de ene kant 20.000 euro, en aan de andere kant ook nog twee jaar lang gratis toegang tot de HPC-cloud en de nieuwe nationale supercomputer Cartesius van SURFsara in Amsterdam.

Vossen: “Het idee achter de geschiedenisrecorder is dat de computer nieuwsberichten door de tijd heen aan elkaar koppelt om zo als het ware een verhaal te vertellen. Wij werken samen met de commerciële informatiemakelaar LexisNexis. Dit bedrijf verzamelt dagelijks twee miljoen nieuwsberichten uit zo’n dertigduizend bronnen, waaronder de belangrijkste Europese kranten. Geen mens kan zoveel informatie lezen. Idealiter willen we dat een computer al die nieuwsberichten op één dag analyseert, aan elkaar koppelt en verbanden legt met nieuwsberichten over hetzelfde onderwerp uit het verleden. Dat is het doel van de geschiedenisrecorder.”

Bijvoorbeeld politici of beleidsmakers willen zo snel mogelijk weten wat er waar in de wereld speelt en hoe ze daarop moeten reageren. Zij zouden efficiënter informatie kunnen verzamelen en schiften wanneer ze een instrument zouden hebben waarmee ze automatisch antwoord krijgen op vragen als: ‘Geef me de reeks gebeurtenissen uit de afgelopen tien jaar waarin de directeur van bedrijf X voorkomt’. Of: ‘Geef me alleen die gebeurtenissen die worden verteld door meerderheid van bronnen’. Of juist het tegendeel: ‘Geef me het verhaal dat het meest afwijkt van het gemiddelde’. Uiteindelijk wil Vossen zo nieuwe verhalen naar boven krijgen, die mensen op de traditionele manier misschien niet of niet zo snel zouden vinden.

Toch is zelfs de jongste nationale supercomputer Cartesius bij lange na niet in staat om al die twee miljoen nieuwsberichten per dag te analyseren. Maar Vossen gaat onderzoeken hoe ver hij komt met de huidige technologie. Daarbij loopt hij behalve tegen taalkundige uitdagingen ook tegen ICT-uitdagingen aan. Een belangrijke uitdaging is hoe hij het rekenen aan taal kan opdelen in subproblemen die parallel aan elkaar oplosbaar zijn. Wanneer kan dat wel, en wanneer niet? Welke software-architectuur werkt voor een geschiedenisrecorder optimaal?

Kwantummodel van taal

Vossen wil ook een soort kwantummodel van interpretatie onderzoeken. “Uitkomsten van het ene subprogramma worden doorgegeven aan het andere. Maar elk subprogramma bevat fouten. Nu stapelen al die fouten bij elkaar op. Idealiter willen we dat elk subprogramma zoveel mogelijk interpretaties met een daarbij behorende waarschijnlijkheid openlaat en dat het hoofdprogramma pas aan het eind beslist wat de meest waarschijnlijk interpretatie is. Omdat je pas op het moment dat je gaat kijken bepaalt hoe je het gaat interpreteren, lijkt het op een kwantummodel in de natuurkunde.”

De beste computerinterpretaties van willekeurige teksten maken nog steeds gemiddeld veertig procent fouten en dat komt voornamelijk door het fundamentele probleem van ambiguïteit in taal. “Omdat we dit fundamentele probleem nog niet goed in kaart hebben gebracht”, zegt Vossen, “is het alsof we door een telescoop naar een klein stukje van het taaluniversum kijken en dan denken dat dat het hele taaluniversum is. Daarom is het zo belangrijk beter de vinger te krijgen achter het verschijnsel ambiguïteit.”

Internet
http://vossen.info

----------------------------------

Summary in English:

As a winner of the NWO Spinoza Award 2013, professor in computational lexicology Piek Vossen (Free University Amsterdam) gave a keynote lecture at ICT Open 2013. He is one of the driving forces behind the development of Wordnets, hierarchical networks of the meanings of words. Wordnets are used by computers to improve their understanding of human language. Vossen will use the 2,5 million euro of the Spinoza Award for a fundamental study of the phenomenon of ambiguity in language. Word ambiguity can sometimes lead to even millions of possible interpretations of a single sentence. For another of his projects, the ‘history recorder’, Vossen has received a Big Data-grant and a free two-years use of the new Dutch national supercomputer Cartesius. The aim of the history recorder is that a computer will be able to automatically analyze millions of news articles per day in different languages and to connect them to previous news articles.

Honors and Awards

Nomination Eureka book Prize 2008
My book OPGELOST - Toepassingen van wiskunde en informatica (which translates as SOLVED - Applications of mathematics and informatics) was nominated for the Eureka book Prize 2008, for the best popular science book.

Amundsen Competition 2007
In december 2007 I was one of fourteen winners in the Amundsen Competition, an essay competiton organised by the World Federation of Science Journalists for the International Polar Year 2007/2008. The price is a two-weeks trip on board of the Arctic Polar Icebreaker ‘Amundsen’ to the North Pole Area (April 24 - May 8, 2008).

See my weblog: in Dutch or in English

Eureka!-award 2003 for the 2002-editorial board of Natuur & Techniek, for the best media achievement in the field of the public understanding of science in the Netherlands. I was part of the board at that time.

‘Friend of Poland’-award 2003 for two articles: a travel article about Krakow in the ANWB-monthly travel magazine Reizen (july/august 2002) and a biology-article on the primeval forest Bialowieza in the east of Poland, for the scientific monthly Natuur & Techniek (march 2003). The international contest for journalists was organised by Radio Polonia and the Polish Organisation for Tourism in Warsaw.

Quotes

The world looks so different after learning science

Richard Feynman

Science is a way of trying not to fool yourself. The first principle is that you must not fool yourself, and you are the easiest person to fool.

Richard Feynman

Wat is wetenschap? Wetenschap is de titanische poging van het menselijk intellect zich uit zijn kosmische isolement te verlossen door te begrijpen!

Professor Nummedal in de roman Nooit meer slapen van W.F. Hermans

We cook the facts. There are many different techniques for collecting, interpreting and analysing facts, and different techniques often lead to different conclusions, which is why scientists can disagree...When facts challenge our favoured conclusions, we scrutinize them more carefully and subject them to more rigourous analysis.

Psychologist Daniel Gilbert in Stumbling on happiness

The brain is wider than the sky,
For, put them side by side,
The one the other will include
With ease, and you beside.

Emily Dickinson

‘Who are YOU?’ said the Caterpillar. This was not an encouraging opening for a conversation. Alice replied, rather shyly, ‘I – I hardly know, sir, just at present – at least I know who I WAS when I got up this morning, but I think I must have been changed several times since then.’

Alice in Wonderland, Lewis Carroll

Want de ruimte en hij die er vrij doorheen trekt, die zijn de enige ware, dat is het leven, en alles wat op een plaats is versteend en langzaam tot stof vergaat, is dood van den beginne af aan.

J. Slauerhoff

Don't see the world as a market, but rather a place that people live in - you are designing for people, not machines.

Red Burns

Van alle dingen die de mensheid zich sinds haar ontstaan eigen heeft gemaakt, is wetenschap verreweg de meest succesvolle en productieve.

Michio Kaku