Monday, April 21, 2014

Dankzij Big Data hebben taalonderzoekers het nog nooit zo goed gehad

Gebeurtenissen voorspellen met tweets. Of met één druk op de knop blootleggen wat er in de wereld te koop is aan meningen over een onderwerp. Dat zijn twee aankomende toepassingen van Big Data-onderzoek in teksten.



Dit artikel is gepubliceerd in NWO Hypothese, april 2014

Nu teksten in de afgelopen tien jaar zo rijkelijk beschikbaar zijn geworden via het World Wide Web, kan de computer ons helpen bij het begrijpen, vertalen en het leggen van verbanden tussen al onze talige uitingen. De digitale wereld van teksten is een wereld van Big Data geworden.

Hoogleraar computationele lexicologie Piek Vossen, winnaar van de NWO Spinozapremie 2013, ontving afgelopen november een Big Data-onderzoekssubsidie voor zijn idee van een 'geschiedenisrecorder'. De geschiedenisrecorder is eigenlijk een computer die stromende nieuwsberichten verzamelt, aan elkaar koppelt, verbanden legt en zo als het ware een historisch verhaal reconstrueert, in ieder geval zoals de media het vertellen. Vossen: "Neem een zin in de krant als 'Angela Merkel zegt dat Griekenland zijn schulden moet saneren'. Om die zin op waarde te schatten, zou je willen weten: Welke krant heeft dat geschreven? Schrijven andere kranten dit ook, of wordt het elders in twijfel getrokken? Wat zei Merkel eerder over de Griekse schulden? Met de geschiedenisrecorder koppelen we nieuwsberichten automatisch aan elkaar."

Vossen heeft met zijn onderzoeksgroep aan de Vrije Universiteit Amsterdam begin dit jaar een geïntegreerd systeem afgerond dat 63.000 nieuwsberichten in een week op deze manier verwerkt. De commerciële informatiemakelaar LexisNexis, waarmee Vossen samenwerkt, verzamelt op een werkdag maar liefst 1,5 miljoen nieuwsberichten. "Om die hoeveelheid op een enkele dag te verwerken, is nog een enorme uitdaging", zegt Vossen. "En dan gaat het niet alleen om het volume van de data, maar ook om het bepalen wat precies een gebeurtenis is en hoe we kunnen weten dat twee stukken tekst over dezelfde gebeurtenis gaan."

Dankzij de geschiedenisrecorder kunnen straks historici, journalisten, politici en wie het ook maar wil snel en eenvoudig achterhalen waar bepaalde tekstuele informatie vandaan komt, wie wat beweert, wie iemand anders weer tegenspreekt, hoeveel mensen zus beweren en hoeveel mensen zo. "De geschiedenisrecorder ontsluit een informatielaag die er wel ligt, maar die mensen op de klassieke manier niet of veel te langzaam vinden", zegt Vossen. "Wat wij straks met een druk op de knop binnen een paar seconden aan verbanden tussen teksten kunnen leveren, zou maanden kosten als je daar zelf met Google achter wilt komen. Dankzij Big Data kunnen we straks veel beter duidelijk maken wat er in de wereld te koop is aan meningen en visies."

#sarcasme
Vossens collega-hoogleraar Antal van den Bosch van de Radboud Universiteit Nijmegen heeft een groot deel van alle Nederlandse tweets sinds 2010 verzameld. Ook dat is Big Data. Met zijn medewerkers heeft hij al deze tweets onder andere onderzocht op het voorkomen van '#sarcasme'. Sommige mensen zetten dat achter een uitspraak als ze duidelijk willen maken dat deze sarcastisch is bedoeld: "thnx iedereen die ineens thuis komt. ik vind het echt niet erg als jullie heel hard praten enzo als ik slaap #sarcasme".

Van den Bosch: "Vroeger was het totaal ondenkbaar dat je een emmer in de taalstroom hield en even vierhonderdduizend in het wild voorkomende sarcastische opmerkingen binnen hengelde. Het gebruik van hashtags in sociale media heeft eigenlijk een nieuwe informatielaag in taal gecreëerd."

Hiermee kunnen van den Bosch en zijn collega's bijvoorbeeld automatisch analyseren welk sentiment er rond een bepaalde gebeurtenis hangt. Bedrijven willen graag een automatisch filter hebben dat vertelt wat hun klanten over ze denken.

Samen met twee promovendi werkt van den Bosch nu aan het voorspellen van gebeurtenissen op basis van Twitterberichten: "De vraag is dan of we in staat zijn uit tweets op te maken wanneer een bepaalde gebeurtenis gaat plaatsvinden: een illegale houseparty bijvoorbeeld, of een protest of een andere samenscholing."

Natuurlijk kleven er ook nadelen aan de Big Data-aanpak van teksten die zomaar van het internet worden geplukt. Van den Bosch: "De kwaliteit van Big Data op sociale media is niet altijd even goed, de herkomst is lang niet altijd duidelijk en het is vaak moeilijk om dezelfde data te repliceren. Maar over het geheel genomen zou ik zeggen: tel je zegeningen. Dankzij Big Data hebben we het als taalonderzoekers nog nooit zo goed gehad."

[kader:]
Big Data - Wat is dat?

'Big Data' is het buzzword van de laatste jaren: grote databergen - afkomstig van websites, sensoren, apps, winkels, ziekenhuizen en wetenschappelijke experimenten. Maar hoe groot is groot? Ter vergelijking: De LHC-deeltjesversneller in Genève produceert zo'n vijftien petabyte aan data per jaar (1 petabyte is 10^15 bytes). Dat komt overeen met de informatie op drie miljoen dvd's. In het land van de Big Data is deze deeltjesversneller tegenwoordig nog maar een kleintje. De wereldwijde hoeveelheid zakelijke e-mails was in 2012 maar liefst tweehonderd keer zoveel. Op Facebook werd in datzelfde jaar twaalf maal zoveel data geplaatst als de LHC in een jaar produceert. De zoekindex van Google bevatte in 2012 zesmaal zoveel aan data als de jaarlijkse dataproductie van de LHC. Naast de grootte van de data kenmerken tekstuele Big Data zich ook doordat ze met grote snelheid worden geproduceerd en dat ze een grote variëteit hebben. Vooral dat laatste maakt het analyseren van Facebook- of Twitterdata een veel diversere taak dan het analyseren van de data van de LHC-deeltjesversneller. In een tekst hebben korte letterreeksen al betekenis. Talige data zijn daarom extreem rijk aan informatie.