Tuesday, April 29, 2014

Mysterie van de Spaanse Griep opgelost


Hoe kon het gebeuren dat de wereldwijde griepepidemie in 1918 de meeste levens eiste onder mensen in de kracht van hun leven? Het lijkt erop dat de Russische Griep het immuunsysteem onvoldoende voorbereidde op de Spaanse Griep.

Lees op de website van W24 het hele artikel.

Wednesday, April 23, 2014

115 jaar oud ondanks honderden mutaties


Henny van Andel-Schipper overleed in 2005 op 115-jarige leeftijd als oudste mens ter wereld. Wat leert haar gezonde veroudering ons over de maximale levensduur van de mens?

Lees op de website van W24 het hele artikel.

Monday, April 21, 2014

Dankzij Big Data hebben taalonderzoekers het nog nooit zo goed gehad

Gebeurtenissen voorspellen met tweets. Of met één druk op de knop blootleggen wat er in de wereld te koop is aan meningen over een onderwerp. Dat zijn twee aankomende toepassingen van Big Data-onderzoek in teksten.



Dit artikel is gepubliceerd in NWO Hypothese, april 2014

Nu teksten in de afgelopen tien jaar zo rijkelijk beschikbaar zijn geworden via het World Wide Web, kan de computer ons helpen bij het begrijpen, vertalen en het leggen van verbanden tussen al onze talige uitingen. De digitale wereld van teksten is een wereld van Big Data geworden.

Hoogleraar computationele lexicologie Piek Vossen, winnaar van de NWO Spinozapremie 2013, ontving afgelopen november een Big Data-onderzoekssubsidie voor zijn idee van een 'geschiedenisrecorder'. De geschiedenisrecorder is eigenlijk een computer die stromende nieuwsberichten verzamelt, aan elkaar koppelt, verbanden legt en zo als het ware een historisch verhaal reconstrueert, in ieder geval zoals de media het vertellen. Vossen: "Neem een zin in de krant als 'Angela Merkel zegt dat Griekenland zijn schulden moet saneren'. Om die zin op waarde te schatten, zou je willen weten: Welke krant heeft dat geschreven? Schrijven andere kranten dit ook, of wordt het elders in twijfel getrokken? Wat zei Merkel eerder over de Griekse schulden? Met de geschiedenisrecorder koppelen we nieuwsberichten automatisch aan elkaar."

Vossen heeft met zijn onderzoeksgroep aan de Vrije Universiteit Amsterdam begin dit jaar een geïntegreerd systeem afgerond dat 63.000 nieuwsberichten in een week op deze manier verwerkt. De commerciële informatiemakelaar LexisNexis, waarmee Vossen samenwerkt, verzamelt op een werkdag maar liefst 1,5 miljoen nieuwsberichten. "Om die hoeveelheid op een enkele dag te verwerken, is nog een enorme uitdaging", zegt Vossen. "En dan gaat het niet alleen om het volume van de data, maar ook om het bepalen wat precies een gebeurtenis is en hoe we kunnen weten dat twee stukken tekst over dezelfde gebeurtenis gaan."

Dankzij de geschiedenisrecorder kunnen straks historici, journalisten, politici en wie het ook maar wil snel en eenvoudig achterhalen waar bepaalde tekstuele informatie vandaan komt, wie wat beweert, wie iemand anders weer tegenspreekt, hoeveel mensen zus beweren en hoeveel mensen zo. "De geschiedenisrecorder ontsluit een informatielaag die er wel ligt, maar die mensen op de klassieke manier niet of veel te langzaam vinden", zegt Vossen. "Wat wij straks met een druk op de knop binnen een paar seconden aan verbanden tussen teksten kunnen leveren, zou maanden kosten als je daar zelf met Google achter wilt komen. Dankzij Big Data kunnen we straks veel beter duidelijk maken wat er in de wereld te koop is aan meningen en visies."

#sarcasme
Vossens collega-hoogleraar Antal van den Bosch van de Radboud Universiteit Nijmegen heeft een groot deel van alle Nederlandse tweets sinds 2010 verzameld. Ook dat is Big Data. Met zijn medewerkers heeft hij al deze tweets onder andere onderzocht op het voorkomen van '#sarcasme'. Sommige mensen zetten dat achter een uitspraak als ze duidelijk willen maken dat deze sarcastisch is bedoeld: "thnx iedereen die ineens thuis komt. ik vind het echt niet erg als jullie heel hard praten enzo als ik slaap #sarcasme".

Van den Bosch: "Vroeger was het totaal ondenkbaar dat je een emmer in de taalstroom hield en even vierhonderdduizend in het wild voorkomende sarcastische opmerkingen binnen hengelde. Het gebruik van hashtags in sociale media heeft eigenlijk een nieuwe informatielaag in taal gecreëerd."

Hiermee kunnen van den Bosch en zijn collega's bijvoorbeeld automatisch analyseren welk sentiment er rond een bepaalde gebeurtenis hangt. Bedrijven willen graag een automatisch filter hebben dat vertelt wat hun klanten over ze denken.

Samen met twee promovendi werkt van den Bosch nu aan het voorspellen van gebeurtenissen op basis van Twitterberichten: "De vraag is dan of we in staat zijn uit tweets op te maken wanneer een bepaalde gebeurtenis gaat plaatsvinden: een illegale houseparty bijvoorbeeld, of een protest of een andere samenscholing."

Natuurlijk kleven er ook nadelen aan de Big Data-aanpak van teksten die zomaar van het internet worden geplukt. Van den Bosch: "De kwaliteit van Big Data op sociale media is niet altijd even goed, de herkomst is lang niet altijd duidelijk en het is vaak moeilijk om dezelfde data te repliceren. Maar over het geheel genomen zou ik zeggen: tel je zegeningen. Dankzij Big Data hebben we het als taalonderzoekers nog nooit zo goed gehad."

[kader:]
Big Data - Wat is dat?

'Big Data' is het buzzword van de laatste jaren: grote databergen - afkomstig van websites, sensoren, apps, winkels, ziekenhuizen en wetenschappelijke experimenten. Maar hoe groot is groot? Ter vergelijking: De LHC-deeltjesversneller in Genève produceert zo'n vijftien petabyte aan data per jaar (1 petabyte is 10^15 bytes). Dat komt overeen met de informatie op drie miljoen dvd's. In het land van de Big Data is deze deeltjesversneller tegenwoordig nog maar een kleintje. De wereldwijde hoeveelheid zakelijke e-mails was in 2012 maar liefst tweehonderd keer zoveel. Op Facebook werd in datzelfde jaar twaalf maal zoveel data geplaatst als de LHC in een jaar produceert. De zoekindex van Google bevatte in 2012 zesmaal zoveel aan data als de jaarlijkse dataproductie van de LHC. Naast de grootte van de data kenmerken tekstuele Big Data zich ook doordat ze met grote snelheid worden geproduceerd en dat ze een grote variëteit hebben. Vooral dat laatste maakt het analyseren van Facebook- of Twitterdata een veel diversere taak dan het analyseren van de data van de LHC-deeltjesversneller. In een tekst hebben korte letterreeksen al betekenis. Talige data zijn daarom extreem rijk aan informatie.

Saturday, April 19, 2014

Van HAL tot Gerty in een video-notendop

In het symposium Van HAL tot GERTY van zondag 13 april werd gekeken hoe de rol die computers hebben gespeeld in de fantastische film werkelijkheid zijn geworden en wat de gevolgen daarvan zijn. Naast een algemeen gedeelte werd ingegaan op ethische vragen en op Singularity, het moment waarop de computer de menselijke intelligentie voorbijstreeft, dit alles aan de hand van een groot aantal filmfragmenten. Tot de gasten behoorden onder andere hoogleraar Kunstmatige Intelligentie Jaap van den Herik, filmmaker Igor Kramer en Bennie Mols, wetenschapsjournalist en auteur van het populair-wetenschappelijke boek ‘Turings Tango’, over kunstmatige intelligentie.

Hier is een kort videoverslag met een bijdrage van mijzelf:



Lees hier een kort verslag van het symposium.

Wednesday, April 16, 2014

Oerknalontdekking nu al onder vuur?


Nieuwe publicatie betwijfelt het eerste experimentele bewijs van kosmische inflatie.

Lees op de website van W24 het hele artikel.

Haarscheurtjes bliezen de Aarde leven in



De Aarde is de enige planeet in ons zonnestelsel met bewegende aardplaten. Twee geologen denken nu te weten hoe dat kan.

Lees op de website van W24 het hele artikel.

Wednesday, April 2, 2014

Allemaal aan de statines? Het moet niet gekker worden.


Een middel dat geslikt moet worden door 96 procent van alle gezonde mannen boven de 55 jaar? De nieuwe Amerikaanse richtlijnen voor het voorschrijven van cholesterolverlagers lijken veel te streng.

Lees op de website van W24 het hele artikel.