Showing posts with label I/O Magazine. Show all posts
Showing posts with label I/O Magazine. Show all posts

Wednesday, December 11, 2019

Meerwaarde van mens met machine

Hoe ontwikkel je kunstmatige intelligentie die goed met mensen kan samenwerken? Dat is het doel van het NWO Zwaartekrachtprogramma Hybrid Intelligence: Augmenting Human Intellect.


Dit artikel is gepubliceerd in I/O Magazine van december 2019. Download het magazine hier.

Computers zijn veel beter dan mensen in schaken en go, maar mensen hebben veel meer gezond verstand dan computers. Robots kunnen perfect de hele dag grote auto-onderdelen in elkaar zetten, maar ondanks de jaren zestig-fantasieën over Rosie-de-Robot zijn mensen nog steeds veel handiger dan robots in het doen van het huishouden. Voor veel toepassingen in de echte wereld is de combinatie van mens en machine krachtiger dan een van beide afzonderlijk. Dat is de achterliggende filosofie van het onderzoeksprogramma Hybrid Intelligence dat dit jaar een NWO Zwaartekrachtsubsidie kreeg van twintig miljoen euro voor tien jaar. Bij het programma zijn in totaal zo’n dertig onderzoekers van zes Nederlandse universiteiten betrokken.

Mede-bedenker en programmaleider is Frank van Harmelen, hoogleraar kunstmatige intelligentie aan de VU. “Veel van de kunstmatige intelligentie van dit moment is gericht op machines die autonoom functioneren en mensen vervangen. Ons doel is juist om kunstmatige intelligentie technisch geschikt te maken om met mensen samen te werken. Om dat doel te halen werkt een groot deel van de onderzoekers binnen kunstmatige intelligentie in Nederland met elkaar samen. Dat vind ik heel bijzonder aan ons programma.”

Om hun doelen concreet te maken schetsen de onderzoekers drie toekomstscenario’s voor de zorg, het onderwijs en de wetenschap. Van Harmelen: “In de zorg is ons doel om robots samen met verpleegkundigen te laten zorgen voor kinderen met kanker. In het onderwijs willen we kijken hoe robots en menselijke docenten samen beter onderwijs kunnen geven. En in de wetenschap hebben we echt een moonshot geformuleerd: het publiceren van een wetenschappelijk artikel waarvan de computer co-auteur is. Dat is het moeilijkst te halen doel.”

Mens-machine-samenwerking stelt nieuwe uitdagingen

Om deze doelen te halen werken de onderzoekers in vier onderzoekslijnen, samengevat in de afkorting CARE: Collaborative, Adaptive, Responsible en Explainable. In de onderzoekslijn collaborative draait het om de samenwerking tussen mens en machine. Van Harmelen: “In de kunstmatige intelligentie van dit moment onderzoekt men vooral de samenwerking tussen machines onderling: multi-agent-systemen heet dat vakgebied. De samenwerking tussen mens en machine stelt ons echter voor heel nieuwe uitdagingen. Zo zouden machines dan ook moeten weten wat mensen wel en niet weten. Machines moeten een theory of mind hebben, zoals dat heet. Dat hebben ze nu nauwelijks.”

Daarnaast draait in de huidige kunstmatige intelligentie veel om het machinaal leren van grote hoeveelheden data. Maar de wereld verandert voortdurend en na iedere verandering heeft een getrainde machine vaak geen antwoord meer op de nieuwe uitdagingen. “Voor het omgaan met zo’n dynamische wereld moeten machines dus ook adaptief zijn”, zegt van Harmelen. Dat is de tweede onderzoekslijn. “Kunstmatige intelligentie heeft daarvoor niet alleen data nodig, maar ook kennis van de wereld. Beide aanpakken willen we combineren.”

De derde onderzoekslijn, responsible, draait om het bijbrengen van normen en waarden aan machines. Van Harmelen: “We willen wel dat onze machines zich gedragen naar de normen en waarden die wij als mensen belangrijk vinden. Een machine moet bijvoorbeeld leren dat hij niet mag liegen. En een robot die voor de klas staat zou ook moeten weten hoe hij zich tegenover zijn leerlingen moet gedragen. Net als mensen moeten machines leren socialiseren.”

De vierde en laatste onderzoekslijn, explainable, heeft als doel om machines ook te laten uitleggen waarom ze een bepaalde beslissing willen nemen of hebben genomen. Veel lerende systemen van tegenwoordig werken als een zwarte doos. Maar om met mensen samen te werken zullen machines ook moeten kunnen uitleggen wat ze willen en waarom.

Volgens van Harmelen loopt Nederland voorop in het onderzoek naar hybride intelligentie: “Je ziet op sommige plekken in de wereld soortgelijke initiatieven ontstaan, bijvoorbeeld aan Stanford in de VS, maar wij waren er vroeg bij. Ook ligt ons onderzoeksplan sterk in lijn met de filosofie die de EU heeft over kunstmatige intelligentie.”



Sociale interactie

Binnen Hybrid Intelligence wordt hoogleraar logica en cognitie Rineke Verbrugge van de Rijksuniversiteit Groningen verantwoordelijk voor het onderzoek naar hoe machines een theory of mind kunnen krijgen. Verbrugge: “Ik definieer theory of mind als je kunnen indenken wat een ander denkt, gelooft, weet en bedoelt. In de sociale interactie gebruiken mensen dat voortdurend. Ik weet dat jij weet dat Amsterdam de hoofdstad is van Nederland. Maar ik weet ook dat jij weet dat ik weet dat Amsterdam de hoofdstad is van Nederland.”

Mensen ontwikkelen die vaardigheid geleidelijk. Ergens tussen het derde en vierde levensjaar leren kinderen te begrijpen wat iemand anders wel of niet weet. Rond hun zesde of zevende leren kinderen te redeneren over wat ze denken dat anderen over hen denken. En zo rond de tienjarige leeftijd begrijpen kinderen wat het betekent als iemand anders iets expliciet belooft.

Het onderzoek van Verbrugge gaat een belangrijke rol spelen in de onderzoekslijn collaborative. Verbrugge: “Bij samenwerken hoort een collectieve intentie. Je wilt samen een doel bereiken. Dan heb ik bijvoorbeeld de intentie dat jij meewerkt, maar ik wil ook dat jij weet dat ik wil meewerken. Als computers in het team zitten dan zullen ze ook moeten begrijpen hoe de menselijke theory of mind werkt. Wat weet een ander teamlid en wat niet? Wat zijn de wensen van andere teamleden? Momenteel kunnen computers dat alleen in geïdealiseerde spelomgevingen met duidelijke spelregels en duidelijke ja- of nee-beslissingen. Maar in de echte wereld schieten computers nog tekort. Neem het conflict tussen Israël en Palestina. Daar spelen emoties een grote rol, net als de gecompliceerde geschiedenis. Huidige computers kunnen daar niet mee omgaan. Hetzelfde geldt voor het begrijpen van lichaamstaal. Mensen kijken naar een ander om er achter te komen wat iemand denkt. Computers zijn daar slecht in.”

Computer als co-auteur

Stel dat een computer over tien jaar inderdaad co-auteur van een wetenschappelijk artikel wordt, wat moet de machine dan beheersen aan theory of mind? Verbrugge: “Dan moet de computer vragen kunnen beantwoorden over het artikel. Hij moet ook kritiek kunnen pareren. Of kunnen zeggen: sorry dat heb ik verkeerd geïnterpreteerd, een andere interpretatie ligt toch meer voor de hand. De computer mag alleen maar als co-auteur bij het artikel als hij volledig dezelfde verantwoordelijkheden heeft als de menselijke co-auteurs.”

Daarnaast zou de computer ook in staat moeten zijn tot meta-redeneren: hij moet inzicht hebben in waarin hij zelf wel en niet goed is en waarin zijn teamleden wel of niet goed zijn. Verbrugge: “Het zou mooi zijn als de computer zelf bedenkt dat die en die wetenschappers elkaar nog niet kennen maar gezien hun expertises wel eens heel goed zouden kunnen samenwerken aan het artikel.”

Alle hoofdonderzoekers binnen Hybrid Intelligence gaan twee eigen promovendi begeleiden en begeleiden mee bij twee promovendi van collega-onderzoekers. Dat is met opzet gedaan om zoveel mogelijk kruisbestuiving te krijgen tussen de verschillende disciplines in de kunstmatige intelligentie.

Naast haar inhoudelijk-wetenschappelijke taak wordt Verbrugge ook voor een dag per week verantwoordelijk voor de educatie en training binnen het programma. “We willen de volgende generatie voldoende bagage meegeven, zowel de studenten en promovendi, als de postdocs en universitair docenten. En die bagage omvat meer dan alleen wetenschap. Promovendi die later het bedrijfsleven willen ingaan willen we de juiste training geven, maar ook promovendi die hoogleraar willen worden. En omdat kunstmatige intelligentie een steeds grotere impact op de samenleving gaat krijgen willen we onze jonge onderzoekers ook voorbereiden op het communiceren van hun wetenschap naar een algemeen publiek. En natuurlijk moeten ze leren nadenken over de ethische en sociaal-maatschappelijke gevolgen van hun werk.”


Programma in vogelvlucht:
Budget: € 20 miljoen

Looptijd: 10 jaar

Betrokken universiteiten: VU (penvoerder), UvA, TU Delft, Universiteit Leiden, Universiteit Utrecht, Rijksuniversiteit Groningen

Onderzoekslijnen: Vier aspecten van kunstmatige intelligentie, samengevat in de afkorting CARE: Collaborative, Adaptive, Responsible en Explainable.

Praktijkdoelen: In de zorg: robots die samen met verpleegkundigen samenwerken in ziekenhuizen voor kinderen met kanker. In het onderwijs: teams van robots en docenten om samen beter les te geven. In de wetenschap: een gepubliceerd wetenschappelijk artikel waarvan een computer co-auteur is.

Hyperlinks
https://www.hybrid-intelligence-centre.nl
https://www.cs.vu.nl/~frankh/
https://rinekeverbrugge.nl

Wednesday, December 12, 2018

Zeggen wat je denkt

Patiënten met het locked-in syndroom, zoals in een vergevorderd stadium van ALS, kunnen niet meer bewegen en praten. Hun enige hoop op contact met de buitenwereld is een apparaatje dat hun hersensignalen omzet in taal of in handelingen.

Dit artikel is gepubliceerd in I/O Magazine van december 2018



“Wanneer je wel nog alles om je heen hoort, maar niet meer mee kunt praten, kan dat je heel eenzaam maken, zeker tegen het einde van je leven”, vertelt hoogleraar Peter Desain over de patiënten die hij wil helpen. Dan gaat het om mensen met een locked-in syndroom, een neurologische toestand waarbij patiënten gevangen zitten in hun eigen lichaam. Dit komt onder andere voor bij een ver gevorderd stadium van de spierziekte ALS.

Desain: “Natuurlijk willen deze patiënten ook graag dat ze zelf het licht aan of uit kunnen doen, of zelf hun rolstoel kunnen besturen, maar wat ze toch het allerliefste willen, is praten: hun liefde uitspreken voor hun naasten, praten over de frustratie over hun ziekte, praten over hun angst voor de dood. Om deze communicatie weer mogelijk te maken, ontwikkelen we brein-computer-interfaces.”

Desain is hoogleraar cognitiewetenschappen en kunstmatige intelligentie aan de Radboud Universiteit Nijmegen. Hij werkt al twintig jaar aan brein-computer-interfaces, een soort breinlezers die hersensignalen oppikken en vertalen in een handeling of in gesproken of geschreven taal. Brein-computer-interfaces zijn lang een belofte zonder toepassingen geweest, vertelt Desain, maar in de afgelopen jaren zijn er eindelijk doorbraken gekomen die hebben geleid tot betrouwbare detectiemethodes. Deze kunnen worden ingezet voor patiënten die niet meer kunnen praten en bewegen, maar ook voor toepassingen in de game-industrie. Spelers van zowel entertainment-games als serious-games kunnen dan direct met hun hersenen een game spelen.

De recente doorbraken werden mogelijk door het samenkomen van ontwikkelingen in de neurowetenschappen en de kunstmatige intelligentie, vertelt Desain. Een voorbeeld is het gebruik van machine learning om het interpreteren van signalen uit het brein te verbeteren. Desain: “Al decennialang meten we EEG-signalen uit het brein door elektroden met een gel op de schedel te plakken. Droge electroden zijn veel makkelijker in het gebruik, maar geven een slechter signaal en maken een onbetrouwbaar contact. Het signaal kan ook verstoord raken door het signaal van bijvoorbeeld samentrekkende spieren of elektrische storingen uit de omgeving, zoals de motor van een rolstoel. Met machine learning zorgen we er nu voor dat dit soort verstoringen automatisch wordt gecorrigeerd, waardoor het interpreteren van EEG-signalen veel betrouwbaarder wordt.”

Om zulke doorbraken te vertalen in een bruikbaar product voor ALS-patiënten, startte Desain met een klein team in mei van dit jaar het spin-off-bedrijf MindAffect. Het idee is om via een EEG-headset te meten op welke toets van een toetsenbord een patiënt zijn aandacht richt. Elke toets knippert met korte en lange lichtflitsjes en genereert zo als het ware zijn eigen unieke streepjescode. Zo leidt elke toets tot een ander hersensignaal dat met een nieuw model nu voorspelbaar is. Daarmee kan de patiënt ongeveer een letter per seconde produceren. Desain: “Dat staat nog een eindje af van vloeiend typen, maar dit is wel een snelheid waarmee een patiënt met de familie of met de dokter kan communiceren.”

Veel van het Nederlandse onderzoek naar brein-computer-interfaces kwam op gang dankzij het publiek-private project BrainGain, dat tussen 2007 en 2013 liep. Een aantal van de toen gestarte initiatieven loopt nog steeds door, vertelt Desain. “Wat Nederland nu sterk maakt in dit veld, is dat alle disciplines die nodig zijn voor het maken van brein-computer-interfaces goed met elkaar samenwerken: van de fabrikanten van de elektrodes tot de bedenkers en de bouwers van de ondersteunende software.” Zo werkt Desain intensief samen met de TU Eindhoven, die een chip voor in de headset maakt (zie kader), en de ALS-patiëntenvereniging, voor de validatie en het testen met patiënten.

Femke Nijboer, universitair docent biomedische signalen en systemen aan de Universiteit Twente, onderzoekt hoe patiënten in de praktijk omgaan met brein-computer-interfaces. Welke wensen hebben zij? En tegen welke problemen lopen zij aan? Nijboer: “Het is nog steeds een grote uitdaging om een brein-computer-interface te maken dat voor iedereen werkt, draagbaar is, niet snel kapot gaat en ook nog betaalbaar is.”

Naast het type breinlezer dat Peter Desain ontwikkelt, schets Nijboer nog een tweede mogelijkheid: “Professor Nick Ramsey van het UMC Utrecht werkt aan het implanteren van elektrodes net onder de schedel, aan de buitenkant van de hersenen. Zo kun je de elektrische signalen beter meten dan op de schedel, maar hoef je niet in het brein zelf te prikken. Bovendien zit je niet met het gedoe om elektrodes op de schedel te plakken. Een patiënt zou er meer vrijheid door krijgen. Deze techniek staat nog in de kinderschoenen, maar ik zie er veel toekomst in.”

De vraag is wel of een ziektekostenverzekering een relatief dure oplossing voor een relatief kleine groep patiënten wil betalen. Naar schatting telt Nederland op dit moment zo’n 124 patiënten die op geen andere manier meer kunnen communiceren dan via een brein-computer-interface. Om die mensen een sterkere stem te geven, is Nijboer bezig met het opzetten van het landelijke netwerk LISNL voor mensen met locked-in syndroom.

Nijboer vertelt dat patiënten zelf trouwens vaak hele andere dingen belangrijk vinden dan de ingenieurs die de breinlezers ontwerpen. “Zo vinden ze het heel belangrijk hoe het apparaat er uit ziet. Ze zeggen: ‘Ik ben al zo in mijn waardigheid aangetast door mijn ziekte. Ik zie er al zo anders uit dan anderen. Dan moet het apparaat dat ik op mijn hoofd heb er wel goed uitzien.’”

Maar wat dit betreft, verwacht ze veel van het bedrijf Neuralink van tech-ondernemer Elon Musk en van tech-giganten als Microsoft en Facebook. “Al deze bedrijven investeren veel geld in brein-computer-interfaces, voor diverse toepassingen. Ik verwacht dat daar iets gaat uitkomen wat er zowel voor consumenten als voor patiënten aantrekkelijk uitziet. Neuralink werkt bijvoorbeeld aan een gaas van sensoren, dat precies op het juiste hersengebied geïnjecteerd kan worden, zodat het gaas zich daar kan ontvouwen om een interface te vormen met de hersenen. Daarmee hopen ze de elektrische signalen uit de hersenen preciezer te meten. En ongetwijfeld zullen ze de communicatie tussen hersenen en computer ook draadloos gaan maken.”

Tenslotte onderzoekt Nijboer ook de ethische en maatschappelijk effecten van het dragen van zulke breinlezers. “Laten we ook kijken hoe zulke patiënten behandeld worden door de maatschappij”, besluit ze. “Fijn dat er apparaten zijn die mensen kunnen helpen om te communiceren, maar wat als er maar weinig mensen zijn die met hen willen communiceren, omdat ze het eng vinden om met een verlamde patiënt te praten?”


[kader]
EEG-chip voor brein-computer-interfaces

Onderzoekers van de TU Eindhoven ontwikkelen een EEG-chip en een EEG-headset voor brein-computer-interfaces om elektrische hersenactiviteit te meten. De belangrijkste uitdaging hierbij is om de gemeten signalen energiezuinig te bewerken en een batterij gevoede, compacte en intelligente EEG-headset te ontwikkelen. Een belangrijke toepassing is bij patiënten met epilepsie en Parkinson.

Professor Henk Corporaal, hoogleraar elektronische systemen aan de TU Eindhoven: “De bestaande headsets hebben allemaal een forse computer nodig voor het verwerken van de signalen”, vertelt Corporaal. “Door die computer kan een patiënt niet vrij bewegen en bovendien verbruikt die veel energie. Wij hebben dit jaar het eerste prototype van een energiezuinige en zeer flexibele chip ontwikkeld. In de komende anderhalf jaar hopen we dit prototype door te ontwikkelen naar een chip die rijp is voor commerciële toepassingen.”

Hiermee wordt het mogelijk dat epilepsie- en Parkinsonpatiënten de elektrische hersenactiviteit in hun eigen vertrouwde omgeving kunnen meten. Een headset met de EEG-chip kan een epileptische aanval zien aankomen of het plotseling ‘bevriezen’ van de bewegingen van een Parkinson-patiënt. Wanneer een patiënt dit op tijd weet, kan hij adequate maatregelen nemen.

Voor epilepsie en Parkinson vindt het basale onderzoek plaats binnen het NWO-project BrainWave (2016-2020) en het op commerciële toepassingen gerichte deel valt onder het project BrainSense (NWO 2018-2019), dat een looptijd van anderhalf jaar heeft.

Het maken van een energiezuinige chip is erg kostbaar en daarom vaak niet commercieel interessant vanwege de relatief lage aantallen patiënten. Vandaar dat de Eindhovense onderzoekers ook toepassingen zoeken in andere domeinen, zoals brein-computer-interfaces voor consumenten in de domotica, voor toepassingen in de game-industrie en toepassingen in intensive cares.

Saturday, January 4, 2014

Piek Vossen opent het taaluniversum voor de computer

Taalkundige Piek Vossen probeert de computer taal te leren. Als winnaar van de NWO Spinozapremie 2013 hield hij op 27 november 2013 een keynote-lezing tijdens ICT Open.

Dit artikel is verschenen in I/O Magazine december 2013

Het blijft verbazingwekkend hoe ogenschijnlijk moeiteloos mensen taal begrijpen. Neem bijvoorbeeld deze zin: “De slang sproeit water op de dure das van mijn vader die over de ezel hangt met de mooie tekening van een paard.”

De woorden ‘slang’, ‘water’, ‘dure’, ‘das’, ‘vader’, ‘ezel’, ‘hangt’, ‘mooie’, ‘tekening’ en ‘paard’ hebben elk minimaal twee betekenissen. Combineer alle mogelijke betekenissen, en een rekensom leert dat deze zin in totaal minimaal 77.760 betekenissen heeft. Van verreweg de meeste van deze betekenissen weten we echter meteen dat het geen waarschijnlijke is. Omdat het over een tekening gaat, is bijvoorbeeld de betekenis van het woord ‘ezel’ een ‘schildersezel’, en niet het dier ‘ezel’.

Een computer heeft het hier een stuk moeilijker. Die heeft heeft in beginsel geen idee welke zinsinterpretatie de meest waarschijnlijke is. “De computer zit in een taalgevangenis”, zegt hoogleraar computationele lexicologie Piek Vossen van de Vrije Universiteit Amsterdam. “Hij kan een zin niet koppelen aan de wereld buiten de taal. Als taalonderzoekers proberen wij te bepalen hoe groot die gevangenis is en hoe de computer daar het beste uit komt.”

Woorden die meerdere betekenissen hebben heten ambigu. En precies het onderzoeken van het verschijnsel ambiguïteit wordt de belangrijkste besteding van de 2,5 miljoen euro die Vossen won met de toekenning van de NWO Spinozapremie, de hoogste wetenschappelijke onderscheiding in Nederland. Vossen: “Dankzij de Spinozapremie kan ik een fundamenteel taalprobleem onderzoeken, dat in de gebruikelijke subsidieaanvragen weinig kans heeft om gehonoreerd te worden, juist omdat het zo fundamenteel is en te weinig gericht op directe praktische toepasbaarheid. Het is de context die problemen met ambiguïteit kan oplossen. Soms is die context alleen maar de twee woorden links en rechts, soms is die context de hele zin en soms kan die context de hele tekst zijn. Dankzij de Spinozapremie wil ik met mijn onderzoeksgroep beter in kaart brengen hoe de context de betekenis van een woord bepaalt.”

Een deel van de Spinozapremie gebruikt Vossen trouwens ook voor het aantrekken van een wetenschappelijk programmeur. Vossen: “De universiteit heeft alle IT-ondersteuning gecentraliseerd. Die dienst heeft al zoveel werk dat we er geen beroep op kunnen doen voor onze specifieke ICT-behoefte. Programmeren is voor de meeste van mijn onderzoekers geen kerncompetentie, maar aan de andere kant is goede software cruciaal voor ons werk. Iedereen in mijn groep kan wel tot op zekere hoogte programmeren, maar met een wetenschappelijk programmeur hopen we onze software nog beter te maken.”

Geschiedenisrecorder
Het digitaal beschikbaar komen van enorme hoeveelheden tekst in bijna alle talen van de wereld heeft succesvolle toepassingen van de computationele taalkunde mogelijk gemaakt. Taaltechnologie zoals Google Translate levert in een handomdraai een redelijke vertaling zonder dat het systeem weet wat het vertaalt. Vossen is zelf een van de drijvende krachten achter de ontwikkeling van zogeheten ‘Wordnets’. Een Wordnet is een soort spinnenweb waarin betekenissen van woorden binnen een bepaalde taal hiërarchisch aan elkaar gekoppeld zijn. Dankzij zulke Wordnets kunnen computers beter informatie halen uit nieuwe teksten. Via Wordnets voor verschillende talen kunnen taalonderzoekers ook verschillen in en overeenkomsten tussen talen bestuderen.

Zijn werk aan Wordnets was een belangrijke reden voor de toekenning van de Spinozaprijs eerder dit jaar. Begin november won hij ook nog een onderzoekssubsidie voor een nieuw Big Data-project: de zogeheten ‘geschiedenisrecorder’. De prijs bedraagt aan de ene kant 20.000 euro, en aan de andere kant ook nog twee jaar lang gratis toegang tot de HPC-cloud en de nieuwe nationale supercomputer Cartesius van SURFsara in Amsterdam.

Vossen: “Het idee achter de geschiedenisrecorder is dat de computer nieuwsberichten door de tijd heen aan elkaar koppelt om zo als het ware een verhaal te vertellen. Wij werken samen met de commerciële informatiemakelaar LexisNexis. Dit bedrijf verzamelt dagelijks twee miljoen nieuwsberichten uit zo’n dertigduizend bronnen, waaronder de belangrijkste Europese kranten. Geen mens kan zoveel informatie lezen. Idealiter willen we dat een computer al die nieuwsberichten op één dag analyseert, aan elkaar koppelt en verbanden legt met nieuwsberichten over hetzelfde onderwerp uit het verleden. Dat is het doel van de geschiedenisrecorder.”

Bijvoorbeeld politici of beleidsmakers willen zo snel mogelijk weten wat er waar in de wereld speelt en hoe ze daarop moeten reageren. Zij zouden efficiënter informatie kunnen verzamelen en schiften wanneer ze een instrument zouden hebben waarmee ze automatisch antwoord krijgen op vragen als: ‘Geef me de reeks gebeurtenissen uit de afgelopen tien jaar waarin de directeur van bedrijf X voorkomt’. Of: ‘Geef me alleen die gebeurtenissen die worden verteld door meerderheid van bronnen’. Of juist het tegendeel: ‘Geef me het verhaal dat het meest afwijkt van het gemiddelde’. Uiteindelijk wil Vossen zo nieuwe verhalen naar boven krijgen, die mensen op de traditionele manier misschien niet of niet zo snel zouden vinden.

Toch is zelfs de jongste nationale supercomputer Cartesius bij lange na niet in staat om al die twee miljoen nieuwsberichten per dag te analyseren. Maar Vossen gaat onderzoeken hoe ver hij komt met de huidige technologie. Daarbij loopt hij behalve tegen taalkundige uitdagingen ook tegen ICT-uitdagingen aan. Een belangrijke uitdaging is hoe hij het rekenen aan taal kan opdelen in subproblemen die parallel aan elkaar oplosbaar zijn. Wanneer kan dat wel, en wanneer niet? Welke software-architectuur werkt voor een geschiedenisrecorder optimaal?

Kwantummodel van taal
Vossen wil ook een soort kwantummodel van interpretatie onderzoeken. “Uitkomsten van het ene subprogramma worden doorgegeven aan het andere. Maar elk subprogramma bevat fouten. Nu stapelen al die fouten bij elkaar op. Idealiter willen we dat elk subprogramma zoveel mogelijk interpretaties met een daarbij behorende waarschijnlijkheid openlaat en dat het hoofdprogramma pas aan het eind beslist wat de meest waarschijnlijk interpretatie is. Omdat je pas op het moment dat je gaat kijken bepaalt hoe je het gaat interpreteren, lijkt het op een kwantummodel in de natuurkunde.”

De beste computerinterpretaties van willekeurige teksten maken nog steeds gemiddeld veertig procent fouten en dat komt voornamelijk door het fundamentele probleem van ambiguïteit in taal. “Omdat we dit fundamentele probleem nog niet goed in kaart hebben gebracht”, zegt Vossen, “is het alsof we door een telescoop naar een klein stukje van het taaluniversum kijken en dan denken dat dat het hele taaluniversum is. Daarom is het zo belangrijk beter de vinger te krijgen achter het verschijnsel ambiguïteit.”

Internet
http://vossen.info

----------------------------------

Summary in English:

As a winner of the NWO Spinoza Award 2013, professor in computational lexicology Piek Vossen (Free University Amsterdam) gave a keynote lecture at ICT Open 2013. He is one of the driving forces behind the development of Wordnets, hierarchical networks of the meanings of words. Wordnets are used by computers to improve their understanding of human language. Vossen will use the 2,5 million euro of the Spinoza Award for a fundamental study of the phenomenon of ambiguity in language. Word ambiguity can sometimes lead to even millions of possible interpretations of a single sentence. For another of his projects, the ‘history recorder’, Vossen has received a Big Data-grant and a free two-years use of the new Dutch national supercomputer Cartesius. The aim of the history recorder is that a computer will be able to automatically analyze millions of news articles per day in different languages and to connect them to previous news articles.

Tuesday, July 2, 2013

American-Dutch partnership on cyber security

For three days in May, a delegation from the US Department of Homeland Security (DHS) Science and Technology Directorate visited the Netherlands to discuss collaboration in the field of cyber-security research. DHS Cyber Security Division Director Douglas Maughan tells about the results of the visit and his ideas for improving cyber security.

The interview took place before the PRISM-program was revealed.

This article is published in I/O Magazine, June 2013

What are the most important challenges for the US when it comes to cyber security?

‘On the top of our list is the area of education. We need a new generation of cyber-security defenders. In the US, fewer and fewer students are going into science and technology, yet the job market in cyber security continues to expand. In order to get kids interested in the field, we have organised a national cyber-defence competition at the collegiate level. In total, 1500 kids took part in a competition in which they had to defend a computer network. In the last few days we have been talking about this with our Dutch partners to see whether we can help them in setting up something like this in the Netherlands. Companies can help to fund such a competition, and they can find their next generation of employees among the kids that take part.’

In terms of challenges, I guess I was thinking more about cyber crime and cyber warfare...

‘Sure, cyber crime is a big concern. Criminals tend to have the latest technologies and law enforcement often lags a bit behind, so of course we are fighting to catch up.

Another big challenge is how to share information between the public and private sectors. In the US, the private sector owns 85 to 90% of the critical infrastructure such as power grids, water supplies and telecommunication. We at the government often have information about cyber threats that we need to share with the private sector in order to defend those critical infrastructures. The threats we are facing are basically the same threats that the Netherlands is facing, so there you can already see the importance of working together.’

I was surprised to learn that a country as huge as the US would want to collaborate with a country as small as the Netherlands in the field of cyber security.

‘I wouldn’t put it like that. In the world of cyberspace you can’t solve problems alone. We try to work with anybody who has good ideas. We also have partnerships with countries like the UK, France and Sweden. I have been in the cyber-security research community for 25 years now, and I think the Dutch academic community in this field is extremely strong. The Dutch have a very strong background in computer systems. And in cyber forensics the Dutch are ahead of most others – if not all others – in the world. We view the US-Dutch collaboration as extremely important, and I believe we are going to have a fruitful partnership.’

What do you expect of the partnership?

‘Our goal at the DHS is to get cyber-security technologies researched, developed and commercialised, so we are more focused on applied than on basic research. We fund projects that have a possibility of being commercialised. We know that we will fund some research at the Dutch Forensics Institute (NFI). Furthermore, we have talked in the last two days with the Dutch National Cyber Security Centre as well as NWO about some other concrete projects, but we haven’t finalised those talks yet. We are also discussing the possibility of calls for collaborative research: respondents would have to show a research proposal with both a US and a Dutch component.’

Can you tell a bit more about some of the research areas that will be involved in the partnership?

‘One common theme for both the US and the Netherlands is setting up Incident Response Teams. How do you put together a team that has to act in case of some cyber emergency? What are the types of skills that members of such a team would need? This is not a technical problem, but rather a social-science problem. Cyber security is not only a technical field. Sometimes it’s more about humans than people realise. Furthermore, there is an economics question: what causes companies to invest or not to invest in new cyber-security technology? And what are the incentives for criminals? From the side of law enforcement, there is the key question of how to extract information for legal prosecution from the data owned by cyber criminals. These are the themes that we have agreed on so far. We are still discussing collaboration in the field of control systems for vital infrastructures and in the field of electronic identity. Which technologies can we develop to make digital identities more secure?’

Will the research done within the partnership be open or classified?

‘It will be open, like almost all of the DHS research programmes. Only some of the research that the DHS does with the law-enforcement community is classified.’

Apart from technical issues, isn’t raising public awareness another important aspect of cyber security? Many ordinary computer and Internet users have no idea about their vulnerabilities.

‘Sure. That’s the reason that the US has started the national campaign “Stop. Think. Connect.” This campaign is aimed at increasing the public’s understanding on issues like identity theft, fraud and phishing, cyber bullying and cyber predators: people who search online for other people in order to use, control or harm them in some way.’

What can realistically be achieved in cyber security in the near future?

‘First of all, we can make improvements in the security of the Internet infrastructure. Domain Name System security is one such improvement. It means that when you visit a website, you can be sure that it is really the website you intended to visit and not a fake website that looks similar. The same goes for data integrity. If you go to google.com and you get data, it should be automatically guaranteed that the data have not been changed underway. Second, since so much of Internet use takes place nowadays via mobile devices, we have to stay ahead in the mobile world, which is a very different one from the traditional desktop world. Third, the next generation of hardware and software systems needs to have built-in security. Internet users should not have to worry about security. The Internet should be like water or air.’

I am sure that you know the TV-series ‘Person of Interest’. How realistic is it according to you?

‘Hollywood is always interesting when it’s doing cyber security. Some of such series have been predictive. However, I think that ‘Person of Interest’ causes more anxiety than that it raises awareness. Hollywood is Hollywood. Sometimes they are ahead of the game, and sometimes they are not.’

---------------------------------------------------------------------------------

NWO research projects on cyber security

In April 2013, nine Dutch cyber-security research projects received a total of EUR 3.2 million in funding from the Netherlands Organisation for Scientific Research (NWO) in connection with the first call for proposals in the long-term Cyber Security research programme. The nine projects will investigate a wide variety of cyber-security challenges. For example: Can ‘backdoors’ in embedded devices (allowing cyber criminals to control them remotely) be automatically detected? What can we learn about the personality traits, the motivations and the networks of cyber criminals? How can we strengthen the weakest link in cyber security: consumers without any expertise? How can we find a balance between securing personal data and keeping information systems user-friendly? How can security analysts best detect malware? A second call for research proposals is expected this summer. The proposed research all fits in with the Dutch National Cyber Security Strategy (NCSS). As part of the strategy, in January 2012 the Cyber Security Centre has been founded, that collaborates with NWO.

Internet
Cyber-security treaty signed between the US and the Netherlands:
www.nwo.nl/actueel/nieuws/2012/nwo-en-ncsc-geven-invulling-aan-nederlands-amerikaanse-samenwerking-in-cyber-security-onderzoek.html
Nine NWO projects on cyber security:
www.nwo.nl/actueel/nieuws/2013/ew/negen-projecten-in-cyber-security-onderzoek-van-start.html
Nationaal Cyber Security Centrum:
https://www.ncsc.nl
Department of Homeland Security on cyber security:
www.dhs.gov/topic/cybersecurity
Cyber-security awareness campaign ‘Stop, think, connect’:
www.dhs.gov/stopthinkconnect
DHS Science & Technology Directorate, Cyber Security Division:
www.dhs.gov/st-csd

Wednesday, June 19, 2013

De menselijke stofwisseling als informatieproces

In het NWO-programma Computational Life Sciences werken biologen samen met chemici, informatici en wiskundigen om nieuwe computationele methoden te ontwikkelen die nodig zijn voor het begrijpen van biologische systemen. Een van de CLS-projecten richt zich op het begrijpen van de menselijke stofwisseling: Hoe maken voedingsstoffen de mens maken tot wie hij is? 



Dit artikel is gepubliceerd in I/O Magazine, juni 2013

Wat ons lichaam doet met de voedingsstoffen die het binnenkrijgt, verschilt van persoon tot persoon. De een komt snel aan, de ander niet. Bij de een verhoogt zout de kans op hart- en vaatziekten flink, bij de ander heeft het nauwelijks invloed. Het ontwikkelen van kwantitatieve modellen die verklaren hoe dat komt, is een grote uitdaging binnen de biologie. Zulke kwantitatieve modellen kunnen vervolgens gebruikt worden om voedings-, gezondheids- en medicijnadviezen op maat te geven. Dat is in ieder geval de toekomstdroom.

Om die toekomstdroom te realiseren, is de informatica inmiddels onmisbaar geworden. Dat komt door de enorme hoeveelheden experimentele data die biologen verzamelen over de mens als biochemische machine: data van de genen, de activiteiten van die genen, de eiwitten waarvoor de genen de bouwinstructies bevatten en de stofwisselingsproducten die binnen en buiten de lichaamscellen worden gemaakt. De informatica is nodig om die datastromen te analyseren. Sinds 2003 kent Nederland het NWO-programma Computational Life Sciences (CLS, zie kader) om onderzoek binnen deze tak van de informatica te ondersteunen.

“Voor mij gaat Computational Life Sciences over het koppelen van data aan modellen”, zegt Marcel Reinders, lid van de CLS-programmacommissie en hoogleraar bioinformatica aan de TU Delft. “Het interessante van CLS is dat de verschillende disciplines zodanig aan het mengen zijn, dat je niet meer zo makkelijk kunt praten over dé informaticacomponent, dé biologiecomponent of dé wiskundecomponent van een CLS-project. Als je een CLS-onderzoeksprobleem alleen aan een wiskundige geeft, dan krijg je een mooie theorie waar een bioloog weinig aan heeft. Geef je het alleen aan een informaticus, dan krijg je een algoritme verpakt in een mooi interface, waar de bioloog en de wiskundige weinig aan hebben. Het belangrijkste resultaat van CLS tot nu toe is dat het programma biologen, informatici en wiskundigen bij elkaar heeft gebracht en dat daar een synergie uit is ontstaan.”

Op de stoel van de ontwerper
Waar het bij elkaar brengen van biologen, informatici en wiskundigen toe kan leiden, laat het net afgeronde CLS-project over metabole netwerken zien. Door het combineren van experimentele biologische data met wiskundige theorieën en efficiënte computeralgoritmes, heeft dit project nieuwe inzichten over de stofwisseling opgeleverd. VU-hoogleraar systeembioinformatica Bas Teusink leidde het project. Teusink: “Sla een tekstboek over biochemie open en het lijkt alsof we alles al weten over de stofwisseling. Niets is minder waar. Neem de enzymen, de katalysatoren tijdens de stofwisseling. We hebben vele metingen van de enzymniveaus, maar niemand heeft een interpretatie voor die metingen. Het lijkt een zooitje. Waarom gaat een enzymniveau in het ene geval tweemaal omhoog en blijft het in het andere geval gelijk?”

Tijdens de stofwisseling staat een lichaamscel eigenlijk voor een grote logistieke opgave: Hoe regel je alle chemische verkeersstromen zodat de juiste stoffen in de juiste verhoudingen worden gemaakt of afgebroken? Teusink en zijn projectmedewerkers hebben daarom een stap terug gedaan en zich af gevraagd: Wat zijn de logische ontwerp-principes waaraan een cel zou moeten voldoen om bij de stofwisseling zo efficiënt mogelijk om te gaan met de beschikbare hoeveelheden energie en materiaal? Robuustheid is een van de logische vereisten: het systeem moet tegen een stootje kunnen. Reguleerbaarheid is een andere logische eis: het systeem moet adequaat in kunnen spelen op veranderingen in de omgeving. Wanneer je een biertje drinkt, signaleert de lever alcoholmoleculen en geeft de levercellen de instructie om enzymen aan te maken die de alcohol afbreken.

De onderzoekers zijn als een soort bio-ingenieurs zelf op de stoel van de ontwerper gaan zitten, hebben verschillende modellen ontworpen en zijn die gaan testen en fijnregelen met de beschikbare experimentele data. Uitgangspunt was de gistcel, die vanwege zijn grote genetische overlap met de mens al decennialang als modelorganisme wordt bestudeerd.

Teusink en zijn collega’s van de Vrije Universiteit Amsterdam en de TU Delft hebben een methode ontwikkeld waarmee ze de optimale enzymverdeling bij de stofwisseling kunnen berekenen op basis van de moleculaire eigenschappen van de individuele enzymen (hoe goed bindt het enzym? hoe groot is het enzym?). “Het is een soort kosten-batenanalyse als functie van de enzymniveaus”, zegt Teusink, “met als randvoorwaarde dat er voor een bepaalde route maar een bepaalde hoeveelheid materiaal beschikbaar is. Bestaande theorieën hielden geen rekening met die randvoorwaarde; wij voor het eerst wel.”

Vanuit informatica-oogpunt ligt het kernprobleem in het omgaan met een hoogdimensionale ruimte (evenveel dimensies als er enzymen worden meegenomen in het model) en het variëren van het honderdtal parameters dat per model kan worden ingesteld. Het aantal mogelijkheden explodeert al snel, waardoor modellen voor stofwisseling het karakter krijgen van wat informatici NP-harde problemen noemen. Een ander informaticaprobleem is de vraag hoe je een biologisch relevante visualisatie maakt van zo’n hoogdimensionaal probleem.



Verkeersstromen op een wegenkaart
Begin maart van dit jaar maakte een grote groep internationale wetenschappers voor het eerst een wegenkaart bekend van de complete menselijke stofwisseling. Een model van 7.440 biochemische reacties tussen meer dan vijfduizend voedingsstoffen laat zien hoe ons lichaam voedingsstoffen verteert, bewerkt en gebruikt als nieuw bouwmateriaal. Zonder twijfel een grote doorbraak. Maar wat nog ontbreekt, is wat het verkeer op die wegen is: hoeveel van welk stofje kiest welke weg? Hoe zijn de afstellingen van de verkeerslichten, ofwel de enzymen, die reacties kunnen versnellen, vertragen en zelfs stop zetten? 

Een grote uitdagingen voor de Computational Life Sciences is om een informatiemodel te ontwikkelen voor de wegenkaart van de menselijke stofwisseling. Reinders denkt dat het realistisch is om te verwachten dat we die wegenkaart in de komende decennia kunnen aanvullen met de benodigde verkeersstromen.

“De wereld van de cel lijkt soms ingewikkelder dan de wereld van de natuurkunde zelf”, zegt Reinders. “Dat kan natuurlijk niet, maar toch. Het menselijk lichaam is een ontzettend in elkaar grijpend systeem dat bestaat uit zo’n 1014 cellen. Om een subsysteem te modelleren, moeten we soms aannemen dat een bepaald eiwitniveau constant is. Maar wanneer we het model testen, blijkt vaak dat we dat eiwitniveau toch niet constant hadden mogen veronderstellen. Tegen dat soort problemen lopen we in de bioinformatica vaak aan.”

“De kunst is om uit te vinden wat je wel en wat je niet mag vereenvoudigen”, vult Teusink aan. “Mijn ideaal is om uit te zoomen van alle details en dan te kijken of we patronen kunnen ontdekken. Een gas lijkt ook een wirwar van botsende moleculen, maar toch kunnen natuurkundigen een statistische gaswet afleiden. Mijn hoop is dat we in de systeembiologie tussen alle complexiteit door ook zulke wetten vinden.”



De smaak van kaas voorspellen
Eind dit jaar loopt het CLS-programma af. Of er een nieuwe CLS-subsidieronde gaat komen, is nog onduidelijk. Maar stel dat die er komt, wat staat dan op het verlanglijstje van de CLS-onderzoekers? “Dan denk ik dat ik de schaal en de complexiteit van de modellen zou willen vergroten”, zegt Reinders. “Dan zouden we meer enzymen en meer lagen van regulatie kunnen modelleren. En misschien zouden we ook moeten denken aan grotere projecten. Hoewel Nederland internationaal aardig meedoet, ontbreekt het bij ons aan grote projecten. In Duitsland is een project gestart om in tien jaar tijd de lever door te meten en te rekenen. In China willen ze een miljoen mensen genetisch gaan sequencen.”

Daarnaast denkt Reinders ook dat een nieuwe CLS-ronde zich wat meer zou kunnen richten op voorspellen in plaats van op alleen beschrijven: “De huidige CLS-programma’s zijn nog vrij fundamenteel en voor de industrie is het gat naar hun praktijk nog vrij groot. Daarbij moeten we wel bedenken dat dit veld pas tien jaar bestaat. Dat is te kort om al onze modellen ook te toetsen aan de industriële praktijk.” Teusink haakt daar op in: “We krijgen wel eens de vraag van een bedrijf of we niet een model hebben dat voorspelt hoe een bepaalde kaas gaat smaken, maar zo ver zijn we nog niet. Aan de andere kant zie ik wel al de eerste modellen verschijnen die genoeg inzicht geven om het aantal experimenten flink te beperken.”

Computational Life Sciences is voor veel informatici nog vrij onbekend terrein. En onbekend maakt onbemind, vinden Reinders en Teusink. Jammer, want goede informatici kan het vakgebied hard gebruiken. “Ik zou informatici graag uitnodigen om de stap naar de Computational Life Sciences te maken”, zegt Reinders. “Informatica is veel meer dan de Google-wereld van enen en nullen.”

Teusink ziet allerlei interessante analogieën tussen biologische netwerken en netwerken uit de informatica, zoals het Internet. “Maar dat je als informaticus kunt meehelpen aan het begrijpen hoe de levende natuur in elkaar staakt, hoe veroudering werkt, wat voeding precies in ons lichaam doet en hoe we gezondheid kunnen verbeteren, dat is toch wel de grootste uitdaging.”

[kader:]
Het NWO-programma Computational Life Sciences

Het programma Computational Life Sciences (CLS) richt zich op de informaticakant van de systeembiologie. Systeembiologen maken kwantitatieve modellen die beschrijven hoe een biologisch systeem werkt: van moleculair en cellulair niveau, via intercellulair niveau naar complete organen en een compleet organisme zoals de mens. CLS-onderzoek ging in de afgelopen jaren over een breed scala aan onderwerpen: onder andere over de menselijke stofwisseling, het afweersysteem, malaria, de genexpressie bij koralen en de communicatie tussen een enkele hersencel en zijn directe omgeving.

Het CLS-programma kende drie subsidierondes: in 2003, 2007 en 2008. De eerste ronde was gericht op het modelleren van biologische deelsystemen zoals een cel, orgaan of organisme. Voor deze ronde was 5,5 miljoen euro beschikbaar (gefinancierd door NWO, stichting Nationale Computerfaciliteiten (NCF) en ZonMW). De tweede en derde ronde waren gericht op het modelleren van biologische netwerken met nieuwe methoden uit de informatica en de wiskunde. Gezamenlijk hadden deze twee rondes een budget van 4,8 miljoen euro (gefinancierd door NWO, NCF, het Netherlands Bioinformatics Centre (NBIC) en het National Genomics Initiative (NGI)).

[Summary in English:]
In 2003 the Dutch National Science Foundation NWO started the program Computational Life Sciences (CLS). The aim of CLS was to strengthen a specific part of computer science that has become indispensable within systems biology. In systems biology biologists cooperate with chemists, mathematicians and computer scientists to develop quantitative models of detailed biological processes. In recent years Dutch CLS-research has covered a broad range of biological subjects: metabolism, the immune system, malaria, gene expression in corals and the communication between a single neuron and its near environment. CLS runs till 2014.

Internet
Meer over de diverse projecten binnen CLS:
www.nwo.nl/onderzoek-en-resultaten/programmas/computational+life+sciences

Tuesday, March 26, 2013

Museumzoekmachine MuS vindt wat Google niet vindt

Zoekmachine MuS maakt de collectiebeschrijvingen van het Gemeentemuseum Den Haag voor iedereen digitaal doorzoekbaar. MuS is het eindresultaat van het project MuSeUMPlus, een samenwerking van het Gemeentemuseum met de Universiteit van Amsterdam.


Dit artikel is gepubliceerd in I/O Magazine, maart 2013

Het Gemeentemuseum Den Haag bezit een grote collectie moderne kunst, mode, muziekinstrumenten en kunstnijverheid zoals keramiek, glas, zilverwerk en meubels. Het museum bezit schilderijen van onder andere Pablo Picasso, Claude Monet, Francis Bacon en van de Nederlandse kunstenaars Piet Mondriaan, Theo Doesburg, Bart van der Leck en Charley Toorop. De Mondriaan-collectie van het Gemeentemuseum is zelfs de grootste ter wereld, met als topstuk Mondriaans laatste schilderij: de Victory Boogie Woogie.

Elk voorwerp uit de collectie is door museummedewerkers beschreven met aanvullende informatie. In totaal beschikt het museum over ruim 100.000 objectbeschrijvingen, zo’n 250.000 bibliografische beschrijvingen (zoals boeken, artikelen en multimediaobjecten) en driekwart miljoen aanvullende archiefbeschrijvingen (zoals stukken uit het tentoonstellingsarchief). Veel van deze informatie is alleen toegankelijk voor museummedewerkers. Zelfs voor ’s werelds meest gebruikte en krachtigste zoekmachine, Google, is deze informatie terra incognita. Een zoekmachine die wel door al die beschrijvingen kan zoeken, zou niet alleen van toegevoegde waarde zijn voor museumprofessionals, maar ook voor geïnteresseerde buitenstaanders en museumbezoekers.

Neem een liefhebber van Mondriaans Victory Boogie Woogie. Hij wil misschien ook wel meer weten over bijvoorbeeld de achtergronden bij de aankoop van het schilderij en de achtergronden van tentoonstellingen waar het schilderij heeft gehangen. Nu nog zit er niets anders op dan het museum aan te schrijven en te hopen dat een museummedewerker bereid is om de gevraagde informatie op te zoeken, op te schrijven en op te sturen. Zowel voor de liefhebber als voor het museum zou het efficiënter zijn wanneer de liefhebber zelf door al deze informatie kan zoeken.

Gecombineerd zoeken
Onderzoekers van de Universiteit van Amsterdam (UvA) werkten de afgelopen jaren samen met het Gemeentemuseum aan de ontwikkeling van zo’n zoekmachine. Tussen 2004 en 2009 gebeurde dat in het project MuSeUM (Multiple-collection Searching Using Metadata); van 2009 tot en met 2012 in het vervolgproject MuSeUMPlus. Van dat laatste project zijn de resultaten net afgerond. “In MuSeUM lag de nadruk op wetenschappelijk onderzoek”, vertelt Vincent de Keijzer, projectcoördinator van de afdeling digitale media van het Gemeentemuseum Den Haag. “De resultaten bestonden uit theoretische modellen en aanbevelingen, maar nog niet een product of een instrument dat het Gemeentemuseum kon toepassen.”

Het vervolgproject MuSeUMPLus had dan ook tot doel om de wetenschappelijke resultaten van MuSeUm om te zetten in een werkende zoekmachine voor erfgoedcollecties in het algemeen en voor het Gemeentemuseum in het bijzonder. UvA-onderzoeker en universitair docent Marijn Koolen was verantwoordelijk voor de wetenschappelijke kant van zowel MuSeUM als MuSeUMPlus. Hij mocht een kopie maken van alle digitale gegevens over de gehele collectie van het Gemeentemuseum en deze gegevens gebruiken om uit de zoeken hoe de beste museumzoekmachine er uit zou moeten zien. Wat is de beste zoekmethode? Hoe kan de zoekmachine de resultaten het beste presenteren? Aan welke eisen moet de zoekmachine voldoen om zowel voor externen als voor interne professionals van toegevoegde waarde te zijn?

“Voor erfgoeddata in een museum kun je grofweg aan twee heel verschillende zoekstrategieën denken”, zegt Koolen. “De database-methode gaat uit van collectiebeschrijvingen die in gespecificeerde velden in een database staan beschreven. Daarin komen velden voor zoals de maker van het object, het jaar waarin het object is gemaakt, waar het is gemaakt, etcetera. Dit is de gestructureerde zoekmethode. De andere methode is de Google-methode: met statistische technieken door één enkele grote databerg zoeken zonder dat vooraf is gespecificeerd welk stukje van die berg over welk type informatie gaat. Binnen het MuSeUM-project had ik laten zien dat een zoekmachine die beide combineert − dus zowel het gestructureerde als het ongestructureerde − het meest geschikt is.”

Een gebruiker die wil zoeken op de naam van de schilder Mondriaan zou in de database-methode eerst moet aangeven dat hij binnen een bepaald veld, bijvoorbeeld het veld ‘maker van het voorwerp’, wil zoeken. De Google-methode zoekt op alle gedigitaliseerde informatie op de naam van Mondriaan. “Museumprofessionals zijn opgeleid met het denken in gestructureerde, ideale databases”, zegt de Keijzer. “Maar wat mij betreft is de wereld van de schone database een idee-fixe. In de praktijk zijn databases altijd vervuild. Ze zijn onvolledig, sommige beschrijvingen staan niet op de juiste plek, andere beschrijvingen zijn verouderd en weer andere beschrijvingen zijn gewoon verkeerd ingevoerd of verkeerd omgezet bij de overgang van een oude op een nieuwe database.”

Zoekmachine MuS
De resultaten van de projecten MuSeUM en MuSeUMPlus zijn nu uitgekristalliseerd in zoekmachine MuS. De rudimentaire zoekmachine die Marijn Koolen bouwde, is door externe ontwikkelaars getransformeerd in een praktisch werkende zoekmachine met een handig interface: Jur de Vries (Triquanta) werkte aan de praktische implementatie van de zoekmachine; Frodo Schering (Frodo Schering Interactive Design) en Volkan Florchinger (Rhizom) bouwden het interface. Koolen: “MuS is generiek opgezet waardoor hij binnen elke database kan zoeken. Verder is de zoekmachine geïntegreerd in het platform Geméén, een platform voor professionals van het Gemeentemuseum waarin zij de zoekresultaten van MuS kunnen bewerken en beheren.” 

De Keijzer geeft een demonstratie van zoekmachine MuS en het platform Geméén. “Stel, ik ben geïnteresseerd in Noord-Nederlandse merklappen”, en hij tikt als zoekterm ‘Noord-Nederlandse merklappen’ in. (Merklappen zijn borduurwerken die ter oefening worden gebruikt.) Net zoals in Google, verschijnen in een handomdraai de zoekresultaten: 512 in dit geval, net als in Google geordend op relevantie. Het is een lange lijst met plaatjes van merklappen en de bijbehorende beschrijvingen zoals ze in de XML-database van het museum staan. “De gebruiker kan zijn zoektermen ook ‘kleuren’”, zegt de Keijzer. “Met een kleurtje kan hij aangeven of een deel van een zoekterm een Wie, Wat, Waar, Wanneer of Hoe is. Hij kan ‘Noord-Nederlandse’ kleuren als een Waar, en merklappen als een Wat. Als ik de zoekmachine dan weer laat zoeken, dan houdt hij rekening met die specificaties.”

Voorlopig kunnen alleen museummedewerkers MuS gebruiken. “Voor extern gebruik zouden we het interface waarschijnlijk nog iets moeten vereenvoudigen, maar technisch gezien is dat geen enkel probleem”, zegt de Keijzer. “Het grootste probleem is niet technisch of wetenschappelijk van aard, maar menselijk. Er bestaat weerstand tegen ongestructureerd zoeken. Bibliothecarissen, documentalisten en informatieprofessionals in het algemeen, zijn opgeleid in de filosofie van ideale, gestructureerde databases.”

“Met het ongestructureerde, Google-achtige zoeken trappen we tegen heilige huisjes aan van de klassieke informatieprofessional” vult Marijn Koolen aan. “Aan de UvA geef ik college information-retrieval en daar merk ik dat ook in de reacties.” Maar misschien sluit het ongestructureerde zoeken wel veel meer aan bij de natuurlijke manier waarop het menselijk brein zoekt dan informatieprofessionals denken. Koolen: “Vijf mensen die dezelfde vraag stellen, bedoelen vaak alle vijf verschillende dingen. En: als je op dinsdag een beschrijving van een museumstuk opschrijft, dan denk je er op woensdag misschien al weer anders over.”

Koud-watervrees
Naast de weerstand tegen ongestructureerd zoeken, bestaat er binnen musea ook weerstand tegen het zoeken zonder toezicht, het open gooien van alle informatie. De Keijzer: “Musea willen controle houden over wat ze mensen wel en niet aanbieden. Maar in een tijd waarin meer en meer informatie via het internet toegankelijk is, rammelt het publiek ook aan onze deur. Mensen zoeken informatie. En als het museum ze niet laten zoeken, dan gaan ze wel ergens anders heen. Dan gaat alles langs ons heen en dat zou zonde zijn.”

“Neem de merklappen”, vervolgt de Keijzer. “Nederland heeft een vereniging van mensen die geïnteresseerd zijn in merklappen. Het Gemeentemuseum heeft merklappen in haar collectie, maar die hebben niet de prioriteit van onze conservatoren. De mensen van die vereniging zouden dolgraag willen zoeken in onze collectie, maar dat kan nu niet. Ik vind het onze taak onze informatie ook voor hen open te stellen.”

MuS is de oplossing, daarvan zijn de Keijzer en Koolen overtuigd. De volgende stap is nu om de museumdirecties ervan te overtuigen dat de koud-watervrees om erfgoedinformatie doorzoekbaar te maken voor het algemene publiek ongegrond is. En dat ook museumprofessionals dankzij een zoekmachine zoals MuS meer kunnen vinden dan ze nu kunnen. De Keijzer: “Met het platform Geméén en met zoekmachine Mus willen we een nieuwe testomgeving gaan bouwen voor meerdere databases. Daarmee willen we aantonen wat de meerwaarde is van een zoekmachine voor onze erfgoeddata.”

[kader:]
CATCHplus

CATCHplus is de opvolger van het landelijke NWO-onderzoeksprogramma CATCH (Continuous Access To Cultural Heritage). CATCH was de eerste onderzoeksstap op weg naar het digitaal toegankelijk maken van cultureel erfgoed zoals schilderijen, beelden, rijksarchieven, logboeken, foto’s, films en tv- en radio-uitzendingen. De resultaten van CATCH bestonden voornamelijk uit theoretische modellen, ideeën en aanbevelingen. CATCHplus heeft een brug geslagen tussen academisch onderzoek en praktische toepassing. In CATCHplus werden prototypes en demo’s uit CATCH-deelprojecten verder ontwikkeld tot bruikbare software. Dit is weer een belangrijke stap op weg naar het ideaal van één Digitale Collectie Nederland.

CATCHplus liep van 2009 tot en met 2012 en er werkten de volgende erfgoedinstellingen aan mee: Rijksmuseum Amsterdam, Amsterdam Museum, Meertens Instituut, Gemeentemuseum Den Haag, Rijksdienst voor het Cultureel Erfgoed, Nationaal Archief, Instituut voor Beeld en Geluid, Koninklijke Bibliotheek, Naturalis, Theaterinstituut Nederland en Gemeentearchief Rotterdam. Deze erfgoedinstellingen werkten samen met bedrijven en met zes kennisinstellingen: Digitaal Erfgoed Nederland (DEN), Universiteit van Groningen, Universiteit van Amsterdam,Vrije Universiteit, Universiteit van Tilburg, Universiteit Twente. CATCHplus ontving in totaal 3,1 miljoen euro subsidie van het interdepartementale Programma Implementatie Agenda ICT-Beleid (PRIMA), het Ministerie van Onderwijs, Cultuur en Wetenschap en de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO).

Summary in English:
Within the project MuSeUMPlus the generic search engine MuS has been developed. MuS can be used to search through the object-, library- and archive-databases of the Gemeentemuseum Den Haag. MuS has been developed to be used both by museum professionals and by the general public. MuS combines two very different search strategies: a structured way of searching in structured databases and a Google-like method for searching in an unstructured pile of data, without having to know beforehand which part of the pile represents which type of data. MuS was developed between 2009 and the end of 2012 by a cooperation of the Gemeentemuseum Den Haag, the University of Amsterdam and companies specialized in software development. MuSeUMPlus is part of the initiative CATCHplus, which aims at digitally opening up all the cultural heritage owned by Dutch public museums, libraries and archives.

Internet

Supercomputing reveals hidden earth

Italian seismologist Domenico Giardini, keynote speaker on the SARA Superdag last december, explains why supercomputers are for earth scientists what telescopes are for astronomers. 

This article was published in I/O Magazine, march 2013

Nobel-prize winner in physics Richard Feynman (1918-1988) once remarked: “It’s hard to believe, but we know a lot more about the distribution of matter in the interior of the sun than in the interior of the Earth.” Asked whether this statement still holds true, Domenico Giardini answers without a millisecond of doubt: “o yes, that’s still true”.

At the same time, the very fact that the earth’s interior is so inaccessible, that one cannot send a submarine, a space ship or even a beam of light inside the earth, is what fascinates Giardini the most in his job as a seismologist. And it is the main reason why supercomputing has become so important to reveal the hidden earth. Combining measurements of where, when and how the earth shakes and shivers with detailed computational models tells a lot about the geophysics of the earth’s interior. For earth scientists the supercomputer is what the telescope is for astronomers.

                                                       A computer simulation of wave propagation in the earth

Giardini is a professor of seismology and geodynamics at the ETH Zürich in Switzerland. He was educated in Italy as a physicist, but he changed his career from modeling the physics of the atmosphere to modeling the physics of the earth, more or less “by accident”, as he says. “When I started in the field, computational power just started to increase rapidly. It was easy to see that this development would make continuously new science possible. And as there were little people doing the same type of work, it was relatively easy to be at the forefront.”

North pole becomes south pole
On the SARA Superdag on december 19 last year, Giardini gave a keynote lecture about high performance computing in solid earth geophysics and seismology. A few decades of exponential growth in the performance of supercomputers makes it nowadays possible for earth scientists to investigate phenomena that were ten years ago impossible to investigate. “The inversion of the magnetic poles, is one of them”, tells Giardini in an interview from half january, when he is just back from field research in Nepal. 

From investigating rocks, scientists have known for decades that the earth’s magnetic north and south pole have interchanged positions many times in the geological history. Although there is no consensus yet about the underlying geophysical cause, today’s supercomputer simulations are beginning to unveil this mystery. Giardini: “To find the cause of the inverting poles, computer simulations need to have a certain resolution. Ten years ago the resolution was below a threshold. Nowadays our codes have crossed this threshold. Suddenly we can run a certain type of physics that was impossible before.”

Not only earth science benefits the power of Moore’s law in supercomputing, also its applications. Giardini: “The exploration of hydrocarbons like oil and gas, a field that is traditionally strong in the Netherlands, can be done with higher and higher precision.” Another application is the development of more realistic evacuation scenario’s based on better models of volcanic eruptions. In his home country Italy this is done for a possible eruption of the Vesuvius, Giardini explains: “Around the Vesuvius about half a million people are living. In the case of an eruption, it’s likely that about ten percent of the neighborhood of the volcano will be destroyed. Although we will never know exactly which ten percent will be destroyed, running different eruption scenario’s on a supercomputer can help to make more realistic evacuation scenario’s. We model what happens in the entire column of the Vesuvius and combine this with measurements at thousands of locations. What happens to the molten rock? What happens with the gas? What happens with the ash? On the basis of past eruptions, detailed measurements and state-of-the-art computational models we hope to help civil protection. Applying my scientific knowledge for the use of society is what I find the most fulfilling in my work.” 

                                                      Computer simulation of an eruption of the Vesuvius

Giardini cooperates with a number of Dutch institutions: Utrecht University, KNMI and TNO. “International cooperation is needed”, he tells. “Not so much for sharing the costs of supercomputing, but primarily to share tools that are needed to run and analyze simulations. Tools such as mathematical techniques that speed up codes; visualization techniques that let us in an easily understandable way the outcomes of the calculation; and last but not least better computer architecture. Nowadays the most demanding chips are developed for games, not for science. Research is needed to develop computer architecture that are optimal for our type of simulations.”

Real time simulations of earth quakes
The exponential growth in the power of supercomputers will still hold in the next decade. What are the new problems that can expected to be solved in the next decade? Giardini: “Let me mention two examples. The earth consists of a hard crust, a deformable mantle, a liquid outer core and a solid inner core. Within five to ten years we will get much better models for the convection in the mantle. That will lead to a better understanding of how tectonic plates move on the mantle and therefore of how earthquakes arise and how mountain ranges are formed. Our models for the mantle describe processes on the scale of million of years. But earthquakes start on a scale of seconds. We need to bridge a huge gap of scales.”

“My second example is the real time simulation of earth quakes in area’s like California, where we can combine a lot of measurements with computer simulations. In California, but also in Italy, thousands of seismic stations measure the tension in the earth’s crust. We would like to run real time simulations of earthquake scenario’s based on these input data. Nowadays it takes three years to calculate fifty different scenario’s of what might happen next. That’s far too long. Real time simulations need a lot more computing power. I expect that we will get there in the next ten years.”

[kader:]
SURFsara and the new national supercomputer Cartesius
On January 1 2013 SARA and Surf merged to SURFsara. SURFsara is now the new Dutch ICT-infrastructure, which consists of networks, supercomputers, grids and data. SARA was founded in 1984 as a national center for supercomputing for scientific research. SARA hosts the national supercomputer. From 2008-2013 this was the IBM-supercomputer named Huygens. In the first half of 2013 Huygens will be replaced by a new national supercomputer from the French company Bull. The new supercomputer is named Cartesius, after the French philosopher Rene Descartes. It is expected that Cartesius will break the petaflop barrier of 10^15 floating point operations per second in 2014.

SURF is the second partner in the newly formed SURFsara. SURF is a powerful partnership for higher education and research in which Dutch universities, colleges and research institutes jointly invest in ICT innovation. It consists of a number of companies each with their own focus: SURFnet, Surfmarket, SURFshare and as of this year: Surf Sara. In 2008 ICT Regie advised that the merger between the two foundations would lead to synergy in forming a world class e-infrastructure within the Netherlands. The then government decided to follow that advise. Within the SURF-organisation SURFsara is now responsible for delivering services in High Performance Computing (HPC), data storage and visualization.

Internet
www.surfsara.nl

Wednesday, January 2, 2013

Videozoekmachine wordt volwassen

UvA-informaticus Cees Snoek heeft de Nederlandse Prijs voor ICT-onderzoek 2012 gewonnen. Hij ontving de prijs voor zijn onderzoek naar zoekmachines die op trefwoorden in videomateriaal zoeken.


Dit artikel is gepubliceerd in I/O Magazine (december 2012) van het Informatica Platform Nederland (IPN).

Een steeds groter deel van de gedigitaliseerde informatie bestaat uit beeld: van vakantiefoto’s op Facebook, homevideo’s op YouTube tot professionele filmreportages in beeldarchieven. Wat zou het handig zijn als we in die beelden net zo goed en snel zouden kunnen zoeken als zoekmachines kunnen in tekst. Zoek je filmbeelden van wielrenners die voor de camera ontkennen dat ze ooit doping hebben gebruikt, dan zou je de de bijbehorende filmfragmenten met slechts een paar trefwoorden willen vinden: bijvoorbeeld ‘wielrenners’, ‘doping’ en ‘ontkenning’ of liever nog met een grammaticaal correcte opdracht als ‘Geef me alle filmfragmenten van wielrenners die voor de camera ontkennen dat ze ooit doping hebben gebruikt’.

Dat lijkt veel eenvoudiger dan het is. In werkelijkheid is automatische beelddetectie een van de grootste uitdagingen in de informatica. Neem bijvoorbeeld het filmbeeld van een man die een overval pleegt op een slijterij. Het herkennen van individuele voorwerpen zoals ‘man’, ‘fles’ en ‘toonbank’ lukt een computer al vrij aardig, maar het begrijpen en onder woorden brengen van de relatie tussen alle individuele voorwerpen in een samengesteld beeld − in dit geval: ‘een man pleegt een overval op een slijterij’ − is voorlopig nog een brug te ver. Toch is er in de afgelopen tien jaar veel vooruitgang geboekt. En daaraan heeft informaticus Cees Snoek van de Universiteit van Amsterdam (UvA) een stevige bijdrage geleverd.

Doorbraak in beeldzoeken “Tot eind jaren negentig probeerden wetenschappers computers beelden te laten begrijpen door modellen van voorwerpen te bouwen”, zegt Snoek. “Zo’n model vertelt de computer bijvoorbeeld dat ‘een stoel vier poten heeft’ en dat ‘een zeilboot een grote romp en een zeil heeft en omringd wordt door blauw water’. Voor elk voorwerp had de computer een apart algoritme nodig. Dat heeft niet tot de gehoopte doorbraak in videozoeken geleid.”

Die doorbraak kwam pas met een model dat de Amerikaan David Lowe in 1999 ontwikkelde. Dit model is geïnspireerd op de manier waarop het menselijk brein visuele informatie begrijpt. Snoek: “Kort gezegd maakt het model een zo compact mogelijke beschrijving van de nabije omgeving van elk pixel. Hoe verandert in de omliggende pixels het contrast, de textuur en de beweging? Die beschrijving filtert alle toevalligheden, zoals de opnamehoek of de schaduw, eruit. Zo ontwikkelde Lowe een algoritme dat alle mogelijke concepten aan kan. In het werk van Lowe zat nog geen kleurinformatie. Dat hebben wij er aan toegevoegd en die uitbreiding gebruikt nu ook de hele wereld in ons vakgebied. Een tweede belangrijke bijdrage aan de geboekte vooruitgang was het beschikbaar komen van heel veel beelddata en het vermogen van algortimen om steeds beter te leren van al die voorbeelden.”

Snoek is de onderzoeksleider van de MediaMill Semantic Video Search Engine, een videozoekmachine van de UvA die jaarlijks hoge ogen gooit in een internationale wedstrijd voor videozoekmachines, georganiseerd door het Amerikaanse National Institute of Standards and Technology (NIST). In 2008, 2009 en 2010 won de UvA-zoekmachine de wedstrijd. “Dat laat zien dat ons onderzoek op wereldniveau zit,” zegt Snoek, “en dat heeft er ongetwijfeld toe bijgedragen dat ik nu de Nederlandse prijs voor ICT-onderzoek heb gewonnen.”

Het verhaal achter het beeld 
Snoek probeert niet alleen de huidige versie van de MediaMill Semantic Video Search Engine beter, sneller en robuuster te maken, hij wil ook nieuwe wegen inslaan. Een van die wegen moet het handmatig labelen van beelden automatiseren. Nu nog labelen onderzoekers de trainingset met beelden handmatig. Om boten te herkennen geven ze de computer een heleboel voorbeelden van boten, waaraan ze zelf het label ‘boot’ hebben gehangen. Snoek: “Dat handwerk wil ik vervangen door het verzamelen van gelabelde beelden van het internet. Dan loop je in eerste instantie tegen het probleem op dat veel labels helemaal niet hoeven te kloppen met het beeld. Een foto van een boot kan bijvoorbeeld het label ‘vakantie’ dragen. Maar we hebben inmiddels een algoritme ontwikkeld dat dit probleem op een effectieve manier oplost.”

Een tweede nieuwe weg die Snoek wil in slaan, is het interpreteren van een beeld in een gehele zin in plaats van alleen in een enkel concept, zoals nu nog gebeurt. “Neem een beeld waarop een vrouw en een fiets te zien zijn. De computer zou dan moeten herkennen of de vrouw langs de fiets loopt, of op de fiets rijdt, of misschien wel de fiets aan het stelen is. De computer moet dan niet alleen met zelfstandige naamwoorden op de proppen komen, maar ook met werkwoorden en voorzetsels. Het ultieme doel is dat een computer de beeldscène omschrijft in een verhaal, zoals mensen dat ook kunnen.”

De beeldzoektechnieken die Snoek met zijn collega’s ontwikkelen, worden sinds kort ook in de praktijk toegepast. Het Nederlands Instituut voor Beeld en Geluid in Hilversum gebruikt de technieken om meer dan 750.000 uur aan videomateriaal doorzoekbaar te maken. En het Nederlands Forensisch Instituut is geïnteresseerd in het toepassen van de techniek om bijvoorbeeld grote hoeveelheden in beslag genomen videomateriaal te filteren op de aanwezigheid van kinderporno.

Het prijzengeld van € 50.000 dat verbonden is aan het winnen van de Nederlandse Prijs voor ICT-onderzoek is voor Snoek een welkome steun in de rug. “Een deel ervan wil ik gebruiken om buitenlandse onderzoekers van naam en faam naar Nederland te halen voor het geven van lezingen. Met een ander deel wil ik mijn promovendi ondersteunen bij de aanschaf van bijvoorbeeld een nieuwe computer of andere hardware. Verder wil ik ook een deel van het geld besteden om een samenwerking met China op te zetten. Een voormalige student van mij is nu universitair docent in Peking en dat contact kan ik gebruiken om de samenwerking met China uit te breiden.”

Internet
http://www.ceessnoek.info/

Kort CV Cees Snoek:

Cees Snoek (1978) studeerde business information systems aan de Universiteit van Amsterdam (UvA, 2000) en promoveerde aan dezelfde universiteit in de informatica (2005). Momenteel is hij universitair docent bij het Instituut voor Infomatica van de UvA en hoofd R&D van het spin-offbedrijf Euvision Technologies. Snoek is gespecialiseerd in automatische zoektechnieken voor video. Hij is de onderzoeksleider van de MediaMill Semantic Video Search Engine, een videozoekmachine die driemaal als ’s werelds beste uit de bus kwam. In de afgelopen jaren won Snoek diverse onderzoeksbeurzen: NWO Veni (2008), Fulbright Junior Scholarship (2010) en een NWO Vidi-beurs (2012). Op 30 oktober 2012 ontving hij de Nederlandse Prijs voor ICT-onderzoek (voor onderzoekers onder de veertig jaar). Het prijzengeld van € 50.000 mag hij vrij besteden aan ICT-onderzoek. De prijs is ingesteld door het ICT-onderzoek Platform Nederland (IPN) en NWO Exacte Wetenschappen, met steun van de Koninklijke Hollandsche Maatschappij der Wetenschappen (KHMW).

Creating social machines for the greater good

The Internet has evolved from a read-only Web, via a read/write Web to a social Web in which humans are becoming part of the machine. Dame Wendy Hall, Professor of Computer Science at the University of Southampton, has always been at the forefront of the science that has led to social machines. 


This article has been published in I/O Magazine, december 2012

Dame Wendy Hall is an atypical computer scientist. She doesn’t like programming. She doesn’t like geek speak. She likes dealing with people. ‘I am a people person, whereas an awful lot of computer scientists don’t like dealing with people,’ she says after having delivered her lecture Web Science: The Theory and Practice of Social Machines at ICT.OPEN 2012 in Rotterdam last October.

Web science is a perfect example of the unique interplay between the scientific and the engineering components of computer science: an interplay between fundamental scientific developments and the practical tool created by computer scientists: the Web. And the social machine is to web scientists what the telescope is to astronomers. ‘Social machines collectively use the power of the human brain, together with the power of machines, for the greater good,’ says Hall, adding, ‘although of course there will also be a greater bad.’

As Hall sees it, the main question that social machines can help us answer is how certain phenomena emerge on the Web. ‘A well-known example involves Twitter, a social machine that we use a lot in our scientific research in Southampton. Who influences whom on Twitter? Who are the creative thinkers? Who are the followers? Who amplifies messages? These are interesting questions to answer. Let me give another example of what a social machine can do in the medical domain. In a small country, only a few people might suffer from some rare disease. But on a global scale that can add up to a significant number of people. A social machine can help patients and their families share their knowledge and experiences.’

Explorers
With the others in her research group at the University of Southampton, Hall is working to characterise and classify social machines, but also to build social machines of their own. She aims to develop a Web observatory where people all over the world can share the data they are gathering about the Web. Hall: ‘Astronomers are already sharing data gathered from different places around the world to create more powerful telescopes. Ideally there should be Web observatories all over the world, including the one we are building at Southampton, coordinated through the Web Science Trust, which is hosted at Southampton.

In considering the potential of social machines, we have to remember, Hall says, that we are still in the very early days. ‘We are explorers in new terrain. It’s like with the computer in the 1940s. People still had to discover what computers are and what computer science is. More social machines fail than succeed. But looking at the failures is as important as looking at the successes. Actually, the Web itself is only so young and therefore still fragile. Governments and companies often don’t understand the digital ecosystem. Companies are afraid to be open and some even try to challenge the principle of net neutrality. Sometimes I feel that just as we could destroy the physical ecosystem on the planet, we could also destroy the digital ecosystem.’

In Hall’s view, humans are an essential part of the social machine: ‘Social machines are not Turing machines anymore. The social machine can be seen as Turing machines in combination with the unpredictable ‘us’. The Web is a sociotechnical system. Social machines are redefining what machines are. They are changing us. But how? The jury is still out. We need data, lots of data. The medical world could profit a lot from health data. We need to get health data out, whilst still ensuring privacy.’

Keeping a close eye on both the element of privacy and the terms under which data can be used is an important issue when it comes to collecting data. Another important issue is that many companies are reluctant to share the data they ‘own’. ‘But in the end,’ says Hall, ‘it’s all about return on investment. If the return is higher than the investment, then it’s worth sharing data.’

Role model Now 60, Hall flies all over the world to give talks about web science and the potential of social machines. ‘I feel privileged that I am ending my scientific career on a real high. All that I have done before is coming together in what I am doing now.’ In 2012, Computer Weekly ranked her second among the ‘most influential women in UK IT’. Hall is seen as a role model for women in science. ‘I have accepted that role, although I have never had kids. I’ve never had to combine family with work and in that sense I am not a role model.’

Throughout her career, Hall has tried to involve more women in computer science. But sometimes she gets tired of the gender issue. ‘Then I think: this is just the way it is. Yes, we do need more women in programming, in building computer architectures, in senior positions, but the pipeline is so empty. Unfortunately it’s almost as if we have lost the battle in computer science. We have created this culture that women just don’t enjoy. On the other hand, women do enjoy talking about the social implications of computer science. My research group counts far more women than the average research group in computer science. That’s because our research is close to the social sciences and the humanities where there are more women than men. I have no problem involving more women in web science and that makes me happy.’

Although Hall likes to study and construct social machines, she is a late adopter herself. ‘I use Twitter, but only since 2009. I enjoy Twitter because it’s a good way to communicate with a large number of people. But I don’t use Facebook. I just don’t want to take the time for it. For me, computer science has always been about how people use computers. I have never been interested in writing programs or compilers. Honestly speaking, computers really annoy me. If I ever have problems with my computer or with the network, I give them to the technical support team to fix.’

Short CV:

Wendy Hall was born in London in 1952. She received a bachelor’s degree and a PhD in mathematics from the University of Southampton. In 1984 she became a computer science lecturer at the same university. She did pioneering research in the field of multimedia and was the co-inventor of the Microcosm hypermedia system, a predecessor of the World Wide Web that ran on a closed network of computers. In 1994 she was appointed Professor of Computer Science at the University of Southampton. In 2006 she co-founded the Web Science Research Initiative (together with, among others, Tim Berners-Lee, the inventor of the World Wide Web). From 2008 to 2010 she was President of the ACM (Association for Computing Machinery). In 2009 she was awarded the title Dame Commander of the British Empire and she was elected as a Fellow of the Royal Society. From 2008-2011 she was a guest professor at Tsinghua University in Beijing. Wendy Hall is married and has no children.

Wednesday, June 27, 2012

Computer leert kijken als arts

Software om medische scans te analyseren werkt vaak slecht als scannerinstellingen veranderen of als beelden van verschillende typen scanners met elkaar worden vergeleken. Marleen de Bruijne van het Erasmus MC zoekt naar technieken die zichzelf kunnen aanpassen aan zulke technische veranderingen. 

Dit artikel is gepubliceerd in I/O Informatica-onderzoek van juni 2012

Dagelijks worden in Nederlandse ziekenhuizen duizenden scans gemaakt waarmee artsen onderzoeken wat er aan ons lichaam schort. Voor het stellen van een diagnose is het de arts zelf die het beeld beoordeelt, soms trouwens geholpen door een computerdiagnose. De arts geeft dan een kwalitatief oordeel. Daarnaast worden scans ook veelvuldig gebruikt in het klinische wetenschappelijke onderzoek. Onderzoekers proberen dan kwantitatieve informatie uit een grote dataset met beelden te halen. Zo gebruiken diverse grootschalige longonderzoeken wel tienduizend scans om de precieze invloed van roken op de longen te onderzoeken. Dat aantal is zo groot dat automatische beeldanalyse noodzakelijk is. Automatische beeldanalyse is ideaal voor kwantitatief onderzoek, bijvoorbeeld om te meten in welke mate de wanden van de luchtwegen verstijven en dikker worden of bij welke patiënten een bepaald medicijn wel of niet werkt.

Universitair hoofddocent Marleen de Bruijne van het Erasmus MC in Rotterdam werkt al sinds het begin van haar promotieonderzoek in 1998 aan medische beeldanalyse. Geregeld zag zij dat een nieuw algoritme weliswaar goed werkte voor de beelddata waarvoor het ontwikkeld was, maar niet meer voor de beelden van een ander ziekenhuis, die gemaakt waren met een ander type scanner. De Bruijne: “Een scan van dezelfde hersenen kan er bij verschillende scannerinstellingen heel anders uitzien. Dat verschil zit bijvoorbeeld in het contrast, de intensiteiten, de ruis en de grootte van de pixels. Zo kan hersenvocht op de ene scan donkerder en op de andere scan juist lichter zijn dan het hersenweefsel. Daarnaast zien de hersenen van jonge patiënten er anders uit dan die van ouderen. Daarom is het lastig om automatische technieken te ontwikkelen die op al deze beelden goed werken. En schaft een ziekenhuis een nieuwe scanner aan, dan kunnen de scans van eenzelfde patiënt gemaakt op de nieuwe scanner niet meer automatisch worden vergeleken met die gemaakt op de oude scanner.”

Volgens de Bruijne is dit een van de grootste problemen in de automatische medische beeldanalyse. Binnen een NWO-Vidi-project (zie kader) werkt ze daarom sinds oktober 2011 aan een oplossingsmethode. Ze richt zich op het ontwikkelen van beeldanalysetechnieken die zichzelf aanpassen aan veranderingen in scannerinstellingen of scannertype. “Daarvoor gebruiken we een tak van de patroonherkenning die in het Engels ‘transfer learning’ heet”, zegt de Bruijne, “in het Nederlands zoiets als ‘leeroverdracht’. Het idee is vergelijkbaar met het leren van een nieuwe taal. Het leren van een nieuwe taal gaat gemakkelijker als je al vijf talen spreekt dan wanneer je aan je eerste nieuwe taal begint. Je gebruikt daarbij de kennis van de talen die je al kent en de ervaring van hoe je het best een taal kunt leren. Op dezelfde manier ontwikkelen wij technieken die leren van de automatische beeldanalyses van verschillende typen beelden. Met deze kennis kan de automatische beeldanalyse van een nieuw type scanner of een nieuwe scannerinstelling sneller van nieuwe voorbeelden leren.”

Kennis van een bekend probleem gebruikt de Bruijne dus voor de toepassing op een nieuw, maar vergelijkbaar probleem. Dat gaat eigenlijk net zoals mensen het balgevoel dat ze opdoen met volleybal bijvoorbeeld ook weer kunnen gebruiken bij handbal. Technieken uit de leeroverdracht worden bijvoorbeeld al gebruikt op het terrein van tekstclassificatie, maar voor het eerst nu ook in de medische beeldanalyse. “Lerende modellen die gebaseerd zijn op patroonherkenning werken vaak veel beter dan modellen waarbij vooraf precies wordt beschreven hoe een bepaalde structuur in het lichaam eruit ziet”, zegt de Bruijne. “Om een voorbeeld te geven: in oude modellen werd een bloedvat beschreven als een cilinder. Maar hoe gedetailleerder je naar een bloedvat kijkt, hoe meer het afwijkt van een ideale cilinder. Het is gekromd. Er zit ruis in het beeld. Het bloedvat is hier wat dunner en daar wat dikker. Patroonherkenning gaat met zulke variaties beter om.”

Eerste resultaat 
Sinds oktober 2011 onderzoekt promovenda Annegreet van Opbroek onder leiding van de Bruijne verschillende manieren van leeroverdracht voor de beeldanalyse van MRI-scans van de hersenen. “Veranderingen van de vorm of structuur van weefsels en structuren kunnen een aanwijzing zijn voor een ziekte”, zegt van Opbroek. Hoewel ze pas iets meer dan een half jaar bezig is, heeft ze al een interessant resultaat geboekt. “Stel, een ziekenhuis koopt een nieuwe scanner. Idealiter zou je, om de scans van patiënten met de oude en de nieuwe scanner met elkaar te vergelijken, eerst een heleboel patiënten met de nieuwe scanner moeten scannen en handmatig door een arts moeten laten beoordelen. Dat is tijdrovend. Ik heb laten zien dat je al heel wat wint wanneer je slechts één patiënt op de nieuwe scanner scant. Als een arts handmatig aangeeft welke hersenstructuren waar op de nieuwe scan zijn te zien, en je combineert die kennis met de kennis van de scans op de oude scanner, dan geeft dat al een behoorlijke verbetering.”

Het met de hand analyseren kan enkele uren tot soms zelfs wel enkele dagen duren voor een driedimensionale hersenscan. Zo’n scan bestaat namelijk uit honderden doorsneden die een arts dan allemaal handmatig moet doorwerken. “Het interpreteren van een tweedimensionaal beeld doet een arts vaak nog veel beter dan een computer”, vertelt de Bruijne, “maar gaat het om een driedimensionaal of zelfs een bewegend beeld, dan wordt het ook voor een getrainde arts lastig en worden automatische technieken belangrijk.”

De Bruijne wil haar lerende technieken niet alleen gebruiken voor beelden van MRI-scanners, maar ook van CT-scanners: “Binnen dit Vidi-project ontwikkelen we heel algemene technieken die voor verschillende soorten beelden en verschillende lichaamsdelen toepasbaar zijn. Twee toepassingsgebieden die we verder onderzoeken zijn hersen-MRI en long-CT. Ik hoop dat aan het eind van het project, in 2016, onze technieken hiervoor ook in de kliniek gebruikt kunnen worden.”

Medische praktijk 
De Bruijne werkt binnen het Erasmus MC samen met radiologen, longartsen en epidemiologen. De epidemiologen startten in 1990 een onderzoek waarbij gezonde oudere inwoners van Rotterdam jarenlang worden gevolgd om het ontstaan van ouderdomsziekten beter te begrijpen. Als deel van het onderzoek worden ook hersenscans gemaakt en daarbij is een goede automatische beeldanalyse belangrijk.

De Bruijne is opgeleid als natuurkundige. Hoe maakt zij zich de medische kennis eigen die in haar werk noodzakelijk is? “Als ik me wil inwerken op een medisch terrein dat ik niet ken, dan ga ik naar een klinische conferentie waar vaak opfriscursussen worden gegeven”, vertelt ze. Daarnaast leert ze veel door te praten met de medici binnen haar samenwerkingsverbanden. Hun kennis is onontbeerlijk om automatische beeldanalyse te verbeteren.

“Laat ik een voorbeeld geven”, zegt de Bruijne. “Bij een onderzoek naar de chronische longziekte COPD volgen we tweeduizend patiënten. Jaarlijks wordt een scan van hun longen gemaakt. Tijdens de scan moeten de patiënten zo diep mogelijk inademen. Maar de ene keer lukt dat beter dan de andere keer. Het verschil kan soms wel een liter aan longinhoud zijn, en dat betekent een groot verschil in de dichtheid en vorm van de longen Bij het automatisch vergelijken van de scans moeten we daarmee rekening houden. De longartsen hadden al een model ontwikkeld om voor de verschillen in longdichtheid te corrigeren. Dat model hebben we gecombineerd met onze beeldbewerkingstechnieken die twee verschillende scans van dezelfde patiënt als het ware digitaal over elkaar heen schuiven om ze een-op-een met elkaar te kunnen vergelijken.En deze combinatie werkte beter dan standaard technieken.”

Hoogleraar radiologie Gabriel Krestin, tevens hoofd van de afdeling radiologie van het Erasmus MC, kijkt uit naar beter technieken voor automatische beeldanalyse. “De interpretatie van medische beelden gebeurde vroeger puur subjectief. Nieuwe technieken, zoals Marleen de Bruijne en haar groep die ontwikkelen, stellen ons in staat steeds meer kwantitatief onderzoek te doen op basis van objectieve criteria. Of de computer de arts ooit helemaal gaat vervangen? Nee, ik denk het niet. De ervaring van de arts met de patiënten zal altijd wel nodig blijven, maar de computer stelt ons wel in staat om betere diagnoses te stellen en beter wetenschappelijk onderzoek te doen.”

[kader:]

Vidi-project met een Deens tintje

In oktober 2011 ging onder leiding van Marleen de Bruijne het NWO Vidi-project ‘Computers met ervaring’ van start. De Bruijne ontving een subsidie van € 800.000 voor vijf jaar. Van dit geld kan ze twee promovendi en een postdoc betalen en een deel van haar eigen salaris. Eén promovenda, Annegreet van Opbroek, is al begonnen; voor een tweede promovendus en postdoc heeft de Bruijne nog vacatures open.

Promovenda Annegreet van Opbroek werkt op het terrein van de beeldanalyse van MRI-hersenscans. De bedoeling is dat de tweede promovendus zich gaat richten op CT-scans van de longen. De Bruijne probeert algemene lerende beeldanalysetechnieken te ontwikkelen die binnen vijf jaar toegepast kunnen worden in het klinische onderzoek. Een van de vele toepassingen ligt op het terrein van de vroege diagnose van dementie. Door het beter kwantificeren van hersenweefsel en hersenstructuren hopen onderzoekers de diagnose dementie steeds vroeger te kunnen stellen.

Naast een aanstelling als universitair hoofddocent aan de Biomedical Imaging Group Rotterdam van het Erasmus MC heeft de Bruijne ook nog een aanstelling als universitair hoofddocent aan de faculteit informatica van de Universiteit van Kopenhagen. In Denemarken begeleidt ze ook nog twee promovendi. “Ik ben tachtig procent van de tijd in Nederland en de overige twintig procent in Kopenhagen”, zegt de Bruijne. “Inhoudelijk overlapt mijn werk in Nederland met dat in Denemarken. De meerwaarde is dat ik het meer fundamenteel gerichte informatica-onderzoek uit Kopenhagen kan combineren met het meer op de geneeskundige praktijk gerichte onderzoek in Rotterdam. Die combinatie bevalt me uitstekend.”

Internet
www.bigr.nl/website/

English summary:

One of the main problems in automatic medical image analysis is the fact that scans of the same body structure can look very different on different scanners or at different scanner settings. The differences can reveal themselves in the contrast, intensity, noise and size of the pixels. Associate professor Marleen de Bruijne from Erasmus MC in Rotterdam and her research group try to solve this problem. De Bruijne focuses on the development of image analysis techniques that adapt themselves to changes in scanner settings or scanner type. She uses a branch of pattern recognition called ‘transfer learning’. The main idea is similar to learning a new language. Learning a new language is easier if you already speak five languages than if you start to learn your first new language. You use the knowledge of languages you already know to more easily learn a new language. In the same way de Bruijne and her research group develop techniques that learn from the automatic image analysis of different scanners and scanner settings. With this knowledge, the automatic image analysis applied at a new type of scanner or a new scanner setting, can more quickly learn from new examples.