Een steeds groter deel van de gedigitaliseerde informatie bestaat uit beeld: van vakantiefoto’s op Facebook, homevideo’s op YouTube tot professionele filmreportages in beeldarchieven. Wat zou het handig zijn als we in die beelden net zo goed en snel zouden kunnen zoeken als zoekmachines kunnen in tekst. Zoek je filmbeelden van wielrenners die voor de camera ontkennen dat ze ooit doping hebben gebruikt, dan zou je de de bijbehorende filmfragmenten met slechts een paar trefwoorden willen vinden: bijvoorbeeld ‘wielrenners’, ‘doping’ en ‘ontkenning’ of liever nog met een grammaticaal correcte opdracht als ‘Geef me alle filmfragmenten van wielrenners die voor de camera ontkennen dat ze ooit doping hebben gebruikt’.
Dat lijkt veel eenvoudiger dan het is. In werkelijkheid is automatische beelddetectie een van de grootste uitdagingen in de informatica. Neem bijvoorbeeld het filmbeeld van een man die een overval pleegt op een slijterij. Het herkennen van individuele voorwerpen zoals ‘man’, ‘fles’ en ‘toonbank’ lukt een computer al vrij aardig, maar het begrijpen en onder woorden brengen van de relatie tussen alle individuele voorwerpen in een samengesteld beeld − in dit geval: ‘een man pleegt een overval op een slijterij’ − is voorlopig nog een brug te ver. Toch is er in de afgelopen tien jaar veel vooruitgang geboekt. En daaraan heeft informaticus Cees Snoek van de Universiteit van Amsterdam (UvA) een stevige bijdrage geleverd.
Doorbraak in beeldzoeken “Tot eind jaren negentig probeerden wetenschappers computers beelden te laten begrijpen door modellen van voorwerpen te bouwen”, zegt Snoek. “Zo’n model vertelt de computer bijvoorbeeld dat ‘een stoel vier poten heeft’ en dat ‘een zeilboot een grote romp en een zeil heeft en omringd wordt door blauw water’. Voor elk voorwerp had de computer een apart algoritme nodig. Dat heeft niet tot de gehoopte doorbraak in videozoeken geleid.”
Die doorbraak kwam pas met een model dat de Amerikaan David Lowe in 1999 ontwikkelde. Dit model is geïnspireerd op de manier waarop het menselijk brein visuele informatie begrijpt. Snoek: “Kort gezegd maakt het model een zo compact mogelijke beschrijving van de nabije omgeving van elk pixel. Hoe verandert in de omliggende pixels het contrast, de textuur en de beweging? Die beschrijving filtert alle toevalligheden, zoals de opnamehoek of de schaduw, eruit. Zo ontwikkelde Lowe een algoritme dat alle mogelijke concepten aan kan. In het werk van Lowe zat nog geen kleurinformatie. Dat hebben wij er aan toegevoegd en die uitbreiding gebruikt nu ook de hele wereld in ons vakgebied. Een tweede belangrijke bijdrage aan de geboekte vooruitgang was het beschikbaar komen van heel veel beelddata en het vermogen van algortimen om steeds beter te leren van al die voorbeelden.”
Snoek is de onderzoeksleider van de MediaMill Semantic Video Search Engine, een videozoekmachine van de UvA die jaarlijks hoge ogen gooit in een internationale wedstrijd voor videozoekmachines, georganiseerd door het Amerikaanse National Institute of Standards and Technology (NIST). In 2008, 2009 en 2010 won de UvA-zoekmachine de wedstrijd. “Dat laat zien dat ons onderzoek op wereldniveau zit,” zegt Snoek, “en dat heeft er ongetwijfeld toe bijgedragen dat ik nu de Nederlandse prijs voor ICT-onderzoek heb gewonnen.”
Het verhaal achter het beeld
Snoek probeert niet alleen de huidige versie van de MediaMill Semantic Video Search Engine beter, sneller en robuuster te maken, hij wil ook nieuwe wegen inslaan. Een van die wegen moet het handmatig labelen van beelden automatiseren. Nu nog labelen onderzoekers de trainingset met beelden handmatig. Om boten te herkennen geven ze de computer een heleboel voorbeelden van boten, waaraan ze zelf het label ‘boot’ hebben gehangen. Snoek: “Dat handwerk wil ik vervangen door het verzamelen van gelabelde beelden van het internet. Dan loop je in eerste instantie tegen het probleem op dat veel labels helemaal niet hoeven te kloppen met het beeld. Een foto van een boot kan bijvoorbeeld het label ‘vakantie’ dragen. Maar we hebben inmiddels een algoritme ontwikkeld dat dit probleem op een effectieve manier oplost.”
Een tweede nieuwe weg die Snoek wil in slaan, is het interpreteren van een beeld in een gehele zin in plaats van alleen in een enkel concept, zoals nu nog gebeurt. “Neem een beeld waarop een vrouw en een fiets te zien zijn. De computer zou dan moeten herkennen of de vrouw langs de fiets loopt, of op de fiets rijdt, of misschien wel de fiets aan het stelen is. De computer moet dan niet alleen met zelfstandige naamwoorden op de proppen komen, maar ook met werkwoorden en voorzetsels. Het ultieme doel is dat een computer de beeldscène omschrijft in een verhaal, zoals mensen dat ook kunnen.”
De beeldzoektechnieken die Snoek met zijn collega’s ontwikkelen, worden sinds kort ook in de praktijk toegepast. Het Nederlands Instituut voor Beeld en Geluid in Hilversum gebruikt de technieken om meer dan 750.000 uur aan videomateriaal doorzoekbaar te maken. En het Nederlands Forensisch Instituut is geïnteresseerd in het toepassen van de techniek om bijvoorbeeld grote hoeveelheden in beslag genomen videomateriaal te filteren op de aanwezigheid van kinderporno.
Het prijzengeld van € 50.000 dat verbonden is aan het winnen van de Nederlandse Prijs voor ICT-onderzoek is voor Snoek een welkome steun in de rug. “Een deel ervan wil ik gebruiken om buitenlandse onderzoekers van naam en faam naar Nederland te halen voor het geven van lezingen. Met een ander deel wil ik mijn promovendi ondersteunen bij de aanschaf van bijvoorbeeld een nieuwe computer of andere hardware. Verder wil ik ook een deel van het geld besteden om een samenwerking met China op te zetten. Een voormalige student van mij is nu universitair docent in Peking en dat contact kan ik gebruiken om de samenwerking met China uit te breiden.”
Internet
http://www.ceessnoek.info/
Kort CV Cees Snoek:
Cees Snoek (1978) studeerde business information systems aan de Universiteit van Amsterdam (UvA, 2000) en promoveerde aan dezelfde universiteit in de informatica (2005). Momenteel is hij universitair docent bij het Instituut voor Infomatica van de UvA en hoofd R&D van het spin-offbedrijf Euvision Technologies. Snoek is gespecialiseerd in automatische zoektechnieken voor video. Hij is de onderzoeksleider van de MediaMill Semantic Video Search Engine, een videozoekmachine die driemaal als ’s werelds beste uit de bus kwam. In de afgelopen jaren won Snoek diverse onderzoeksbeurzen: NWO Veni (2008), Fulbright Junior Scholarship (2010) en een NWO Vidi-beurs (2012). Op 30 oktober 2012 ontving hij de Nederlandse Prijs voor ICT-onderzoek (voor onderzoekers onder de veertig jaar). Het prijzengeld van € 50.000 mag hij vrij besteden aan ICT-onderzoek. De prijs is ingesteld door het ICT-onderzoek Platform Nederland (IPN) en NWO Exacte Wetenschappen, met steun van de Koninklijke Hollandsche Maatschappij der Wetenschappen (KHMW).
Cees Snoek (1978) studeerde business information systems aan de Universiteit van Amsterdam (UvA, 2000) en promoveerde aan dezelfde universiteit in de informatica (2005). Momenteel is hij universitair docent bij het Instituut voor Infomatica van de UvA en hoofd R&D van het spin-offbedrijf Euvision Technologies. Snoek is gespecialiseerd in automatische zoektechnieken voor video. Hij is de onderzoeksleider van de MediaMill Semantic Video Search Engine, een videozoekmachine die driemaal als ’s werelds beste uit de bus kwam. In de afgelopen jaren won Snoek diverse onderzoeksbeurzen: NWO Veni (2008), Fulbright Junior Scholarship (2010) en een NWO Vidi-beurs (2012). Op 30 oktober 2012 ontving hij de Nederlandse Prijs voor ICT-onderzoek (voor onderzoekers onder de veertig jaar). Het prijzengeld van € 50.000 mag hij vrij besteden aan ICT-onderzoek. De prijs is ingesteld door het ICT-onderzoek Platform Nederland (IPN) en NWO Exacte Wetenschappen, met steun van de Koninklijke Hollandsche Maatschappij der Wetenschappen (KHMW).