Sunday, July 1, 2012

Zo leert Google’s visuele brein kijken

Dit artikel is gepubliceerd in NRC Handelsblad van zaterdag 30 juni 2012


Neem tien miljoen YouTube-video’s en selecteer willekeurig één beeld uit elke video. Leg die tien miljoen willekeurige beelden voor aan een netwerk van duizend computers, die samen opereren als een ongetraind visueel brein. Zou dit kunstmatige visuele brein in staat zijn om zelfstandig te leren om visuele concepten uit het niets te vormen?

Ja, dat kan, zo hebben onderzoekers van de Universiteit van Stanford en van Google aangetoond. Een kunstmatige visueel brein blijkt automatisch visuele concepten te ontwikkelen van een menselijk gezicht, een menselijk lichaam, maar ook − tot verrassing van de onderzoekers − van het gezicht van een kat. De onderzoekers publiceerden hun onderzoeksresultaten afgelopen week op een internationale conferentie over machinaal leren in het Schotse Edinburgh.

Kennelijk zetten YouTube-gebruikers zoveel filmpjes van katten online dat het kunstmatige visuele brein ze vanzelf gaat herkennen. Een kunstmatig visueel brein dat uit zichzelf leert om voorwerpen te herkennen is een belangrijke stap vooruit in de automatische beeldherkenning. Tot voor kort moest een kunstmatig visueel brein eerst getraind worden met voorbeelden van grote aantallen katten voordat het op een nieuwe foto een kat kon herkennen. Google’s systeem had van te voren nog nooit een kat gezien.

De onderzoekers gebruikten duizend computers met in totaal zestienduizend processoren en toverden dit om in één enkel neuraal netwerk met een miljard verbindingen. Drie dagen lang kreeg dit kunstmatige visuele brein beelden voorgeschoteld van elk tweehonderd bij tweehonderd pixels. De visuele concepten van het menselijke gezicht en dat van een kat zien er enigszins droomachtig uit, maar het is een hele prestatie. Van de computeranalyse van beeld, schrift, geluid en spraak is een computeranalyse van beeld verreweg het moeilijkst. En dat komt omdat expliciete regels voor beeldherkenning ontbreken.

Google’s kunstmatige visuele brein bleek ook in staat om met een nauwkeurigheid van 15,8% voorwerpen te herkennen uit een verzameling van twintigduizend voorwerpen. Dat is bijna tweemaal zo goed dan het record tot nu toe. Het doel van Google is om dit soort zelflerende patroonherkennende systemen te gebruiken voor het verbeteren van beeld- en spraakherkenning en automatische vertaling.