Dankzij Big Data hebben taalonderzoekers het nog nooit zo goed gehad

Monday, April 21, 2014

Dankzij Big Data hebben taalonderzoekers het nog nooit zo goed gehad

Gebeurtenissen voorspellen met tweets. Of met één druk op de knop blootleggen wat er in de wereld te koop is aan meningen over een onderwerp. Dat zijn twee aankomende toepassingen van Big Data-onderzoek in teksten.

Dit artikel is gepubliceerd in NWO Hypothese, april 2014

Nu teksten in de afgelopen tien jaar zo rijkelijk beschikbaar zijn geworden via het World Wide Web, kan de computer ons helpen bij het begrijpen, vertalen en het leggen van verbanden tussen al onze talige uitingen. De digitale wereld van teksten is een wereld van Big Data geworden.

Hoogleraar computationele lexicologie Piek Vossen, winnaar van de NWO Spinozapremie 2013, ontving afgelopen november een Big Data-onderzoekssubsidie voor zijn idee van een 'geschiedenisrecorder'. De geschiedenisrecorder is eigenlijk een computer die stromende nieuwsberichten verzamelt, aan elkaar koppelt, verbanden legt en zo als het ware een historisch verhaal reconstrueert, in ieder geval zoals de media het vertellen. Vossen: "Neem een zin in de krant als 'Angela Merkel zegt dat Griekenland zijn schulden moet saneren'. Om die zin op waarde te schatten, zou je willen weten: Welke krant heeft dat geschreven? Schrijven andere kranten dit ook, of wordt het elders in twijfel getrokken? Wat zei Merkel eerder over de Griekse schulden? Met de geschiedenisrecorder koppelen we nieuwsberichten automatisch aan elkaar."

Vossen heeft met zijn onderzoeksgroep aan de Vrije Universiteit Amsterdam begin dit jaar een geïntegreerd systeem afgerond dat 63.000 nieuwsberichten in een week op deze manier verwerkt. De commerciële informatiemakelaar LexisNexis, waarmee Vossen samenwerkt, verzamelt op een werkdag maar liefst 1,5 miljoen nieuwsberichten. "Om die hoeveelheid op een enkele dag te verwerken, is nog een enorme uitdaging", zegt Vossen. "En dan gaat het niet alleen om het volume van de data, maar ook om het bepalen wat precies een gebeurtenis is en hoe we kunnen weten dat twee stukken tekst over dezelfde gebeurtenis gaan."

Dankzij de geschiedenisrecorder kunnen straks historici, journalisten, politici en wie het ook maar wil snel en eenvoudig achterhalen waar bepaalde tekstuele informatie vandaan komt, wie wat beweert, wie iemand anders weer tegenspreekt, hoeveel mensen zus beweren en hoeveel mensen zo. "De geschiedenisrecorder ontsluit een informatielaag die er wel ligt, maar die mensen op de klassieke manier niet of veel te langzaam vinden", zegt Vossen. "Wat wij straks met een druk op de knop binnen een paar seconden aan verbanden tussen teksten kunnen leveren, zou maanden kosten als je daar zelf met Google achter wilt komen. Dankzij Big Data kunnen we straks veel beter duidelijk maken wat er in de wereld te koop is aan meningen en visies."

#sarcasme

Vossens collega-hoogleraar Antal van den Bosch van de Radboud Universiteit Nijmegen heeft een groot deel van alle Nederlandse tweets sinds 2010 verzameld. Ook dat is Big Data. Met zijn medewerkers heeft hij al deze tweets onder andere onderzocht op het voorkomen van '#sarcasme'. Sommige mensen zetten dat achter een uitspraak als ze duidelijk willen maken dat deze sarcastisch is bedoeld: "thnx iedereen die ineens thuis komt. ik vind het echt niet erg als jullie heel hard praten enzo als ik slaap #sarcasme".

Van den Bosch: "Vroeger was het totaal ondenkbaar dat je een emmer in de taalstroom hield en even vierhonderdduizend in het wild voorkomende sarcastische opmerkingen binnen hengelde. Het gebruik van hashtags in sociale media heeft eigenlijk een nieuwe informatielaag in taal gecreëerd."

Hiermee kunnen van den Bosch en zijn collega's bijvoorbeeld automatisch analyseren welk sentiment er rond een bepaalde gebeurtenis hangt. Bedrijven willen graag een automatisch filter hebben dat vertelt wat hun klanten over ze denken.

Samen met twee promovendi werkt van den Bosch nu aan het voorspellen van gebeurtenissen op basis van Twitterberichten: "De vraag is dan of we in staat zijn uit tweets op te maken wanneer een bepaalde gebeurtenis gaat plaatsvinden: een illegale houseparty bijvoorbeeld, of een protest of een andere samenscholing."

Natuurlijk kleven er ook nadelen aan de Big Data-aanpak van teksten die zomaar van het internet worden geplukt. Van den Bosch: "De kwaliteit van Big Data op sociale media is niet altijd even goed, de herkomst is lang niet altijd duidelijk en het is vaak moeilijk om dezelfde data te repliceren. Maar over het geheel genomen zou ik zeggen: tel je zegeningen. Dankzij Big Data hebben we het als taalonderzoekers nog nooit zo goed gehad."

[kader:]
Big Data - Wat is dat?

'Big Data' is het buzzword van de laatste jaren: grote databergen - afkomstig van websites, sensoren, apps, winkels, ziekenhuizen en wetenschappelijke experimenten. Maar hoe groot is groot? Ter vergelijking: De LHC-deeltjesversneller in Genève produceert zo'n vijftien petabyte aan data per jaar (1 petabyte is 10^15 bytes). Dat komt overeen met de informatie op drie miljoen dvd's. In het land van de Big Data is deze deeltjesversneller tegenwoordig nog maar een kleintje. De wereldwijde hoeveelheid zakelijke e-mails was in 2012 maar liefst tweehonderd keer zoveel. Op Facebook werd in datzelfde jaar twaalf maal zoveel data geplaatst als de LHC in een jaar produceert. De zoekindex van Google bevatte in 2012 zesmaal zoveel aan data als de jaarlijkse dataproductie van de LHC. Naast de grootte van de data kenmerken tekstuele Big Data zich ook doordat ze met grote snelheid worden geproduceerd en dat ze een grote variëteit hebben. Vooral dat laatste maakt het analyseren van Facebook- of Twitterdata een veel diversere taak dan het analyseren van de data van de LHC-deeltjesversneller. In een tekst hebben korte letterreeksen al betekenis. Talige data zijn daarom extreem rijk aan informatie.

Honors and Awards

Nomination Eureka book Prize 2008
My book OPGELOST - Toepassingen van wiskunde en informatica (which translates as SOLVED - Applications of mathematics and informatics) was nominated for the Eureka book Prize 2008, for the best popular science book.

Amundsen Competition 2007
In december 2007 I was one of fourteen winners in the Amundsen Competition, an essay competiton organised by the World Federation of Science Journalists for the International Polar Year 2007/2008. The price is a two-weeks trip on board of the Arctic Polar Icebreaker ‘Amundsen’ to the North Pole Area (April 24 - May 8, 2008).

See my weblog: in Dutch or in English

Eureka!-award 2003 for the 2002-editorial board of Natuur & Techniek, for the best media achievement in the field of the public understanding of science in the Netherlands. I was part of the board at that time.

‘Friend of Poland’-award 2003 for two articles: a travel article about Krakow in the ANWB-monthly travel magazine Reizen (july/august 2002) and a biology-article on the primeval forest Bialowieza in the east of Poland, for the scientific monthly Natuur & Techniek (march 2003). The international contest for journalists was organised by Radio Polonia and the Polish Organisation for Tourism in Warsaw.

Quotes

The world looks so different after learning science

Richard Feynman

Science is a way of trying not to fool yourself. The first principle is that you must not fool yourself, and you are the easiest person to fool.

Richard Feynman

Wat is wetenschap? Wetenschap is de titanische poging van het menselijk intellect zich uit zijn kosmische isolement te verlossen door te begrijpen!

Professor Nummedal in de roman Nooit meer slapen van W.F. Hermans

We cook the facts. There are many different techniques for collecting, interpreting and analysing facts, and different techniques often lead to different conclusions, which is why scientists can disagree...When facts challenge our favoured conclusions, we scrutinize them more carefully and subject them to more rigourous analysis.

Psychologist Daniel Gilbert in Stumbling on happiness

The brain is wider than the sky,
For, put them side by side,
The one the other will include
With ease, and you beside.

Emily Dickinson

‘Who are YOU?’ said the Caterpillar. This was not an encouraging opening for a conversation. Alice replied, rather shyly, ‘I – I hardly know, sir, just at present – at least I know who I WAS when I got up this morning, but I think I must have been changed several times since then.’

Alice in Wonderland, Lewis Carroll

Want de ruimte en hij die er vrij doorheen trekt, die zijn de enige ware, dat is het leven, en alles wat op een plaats is versteend en langzaam tot stof vergaat, is dood van den beginne af aan.

J. Slauerhoff

Don't see the world as a market, but rather a place that people live in - you are designing for people, not machines.

Red Burns

Van alle dingen die de mensheid zich sinds haar ontstaan eigen heeft gemaakt, is wetenschap verreweg de meest succesvolle en productieve.

Michio Kaku