Dit artikel is gepubliceerd in technologietijdschrift De Ingenieur van 12 april 2013
Naam: Tomaso Poggio
Leeftijd: 65
Titels: prof. dr.
Opleiding: Studeerde natuurkunde en promoveerde in 1971 in de theoretische natuurkunde aan de Universiteit van Genua (Italië). Van 1972 tot 1981 onderzocht hij het brein van de fruitvlieg bij het Max Planck Instituut voor Biologische Cybernetica in Tübingen (Duitsland).
Functie: Sinds 1981 werkt Poggio aan het Massachusetts Institute of Technology (MIT) in de VS. Hij is momenteel de Eugene McDermott Professor aan het Department of Brain and Cognitive Sciences van het McGovern Institute van MIT. Tevens is hij verbonden aan het Computer Science and Artificial Intelligence Lab (CSAIL) van MIT.
Ik vraag het Tomaso Poggio maar meteen: ‘Stel, de autonome auto van Google staat hier buiten voor de deur. Durft u, als iemand die zowel de sterke als de zwakke kanten van computervisie feilloos kent, in de auto te stappen en u te laten rondrijden?’
“O, absoluut”, antwoordt MIT-hoogleraar Poggio. “Ik zou me prima op mijn gemak voelen. In mijn eigen Audi zit trouwens al een radar-detectiesysteem. Ik stel de cruise control in op een bepaalde maximum snelheid en vervolgens auto houdt de auto een bepaalde afstand tot mijn voorligger. Het werkt zo goed, dat ik me geen zorgen meer maak. Soms vertrouw ik het systeem zelfs te veel. Het gebeurt wel eens dat een voorligger door het rood rijdt. Dan wil mijn auto ook door rood rijden. Hij herkent het rode licht niet, maar wil toch de afstand tot de voorligger gelijk houden. Gelukkig komen detectiesystemen die ook het rode licht herkennen er ook al aan.”
In de jaren negentig was Poggio een van de eersten die een computeralgoritme ontwikkelde dat voetgangers en andere straatobjecten in alledaagse beelden kon herkennen. Bij een snelheid van dertig beeldjes per seconde maakte het systeem eenmaal per seconde een fout. Voor een onderzoekssysteem in die tijd een grote prestatie. Maar voor praktische toepassing veel te slecht. Poggio: “Huidige computervisiesystemen maken in de orde-grootte van eens in vijftigduizend rij-uren een fout. Deze systemen kunnen levens redden. Geen wonder dat verzekeringsmaatschappijen inmiddels de premie beginnen te verlagen voor bestuurders die zo’n waarnemingssysteem in hun auto hebben.”
Poggio was ook een van de eersten die computervisie niet langer baseerde op volledig voorgeprogrammeerde regels, zoals decennialang tevergeefs is geprobeerd. Geïnspireerd door de werking van het menselijk brein bouwde hij een lerend systeem dat werd getraind met duizenden straatbeelden. Poggio: “De beste huidige computervisie gebruikt nog steeds dat basisidee, maar er zijn een heleboel lagen aan engineering bovenop gekomen. Bovendien bestaat de trainingsset tegenwoordig al snel uit miljoenen beelden.”
Poggio zelf is vooral geïnteresseerd in de fundamentele wetenschap die ten grondslag ligt aan lerende systemen. Zodra de toepassingen in zicht komen, dan laat hij het werk graag aan anderen over. Een van zijn voormalige post-docs, de Israëliër Amnon Shashua, heeft het bedrijf MobilEye opgericht. Dat bedrijf is inmiddels de belangrijkste leverancier van computervisiesoftware aan autofabrikanten als Audi, BMW en Toyota. Poggio: “De autonome auto van Google krijgt dan wel de meeste aandacht, maar praktisch gezien is een bedrijf als MobilEye veel belangrijker voor de implementatie van computervisie in auto’s.”
Einsteins genie
Opleiding: Studeerde natuurkunde en promoveerde in 1971 in de theoretische natuurkunde aan de Universiteit van Genua (Italië). Van 1972 tot 1981 onderzocht hij het brein van de fruitvlieg bij het Max Planck Instituut voor Biologische Cybernetica in Tübingen (Duitsland).
Functie: Sinds 1981 werkt Poggio aan het Massachusetts Institute of Technology (MIT) in de VS. Hij is momenteel de Eugene McDermott Professor aan het Department of Brain and Cognitive Sciences van het McGovern Institute van MIT. Tevens is hij verbonden aan het Computer Science and Artificial Intelligence Lab (CSAIL) van MIT.
Ik vraag het Tomaso Poggio maar meteen: ‘Stel, de autonome auto van Google staat hier buiten voor de deur. Durft u, als iemand die zowel de sterke als de zwakke kanten van computervisie feilloos kent, in de auto te stappen en u te laten rondrijden?’
“O, absoluut”, antwoordt MIT-hoogleraar Poggio. “Ik zou me prima op mijn gemak voelen. In mijn eigen Audi zit trouwens al een radar-detectiesysteem. Ik stel de cruise control in op een bepaalde maximum snelheid en vervolgens auto houdt de auto een bepaalde afstand tot mijn voorligger. Het werkt zo goed, dat ik me geen zorgen meer maak. Soms vertrouw ik het systeem zelfs te veel. Het gebeurt wel eens dat een voorligger door het rood rijdt. Dan wil mijn auto ook door rood rijden. Hij herkent het rode licht niet, maar wil toch de afstand tot de voorligger gelijk houden. Gelukkig komen detectiesystemen die ook het rode licht herkennen er ook al aan.”
In de jaren negentig was Poggio een van de eersten die een computeralgoritme ontwikkelde dat voetgangers en andere straatobjecten in alledaagse beelden kon herkennen. Bij een snelheid van dertig beeldjes per seconde maakte het systeem eenmaal per seconde een fout. Voor een onderzoekssysteem in die tijd een grote prestatie. Maar voor praktische toepassing veel te slecht. Poggio: “Huidige computervisiesystemen maken in de orde-grootte van eens in vijftigduizend rij-uren een fout. Deze systemen kunnen levens redden. Geen wonder dat verzekeringsmaatschappijen inmiddels de premie beginnen te verlagen voor bestuurders die zo’n waarnemingssysteem in hun auto hebben.”
Poggio was ook een van de eersten die computervisie niet langer baseerde op volledig voorgeprogrammeerde regels, zoals decennialang tevergeefs is geprobeerd. Geïnspireerd door de werking van het menselijk brein bouwde hij een lerend systeem dat werd getraind met duizenden straatbeelden. Poggio: “De beste huidige computervisie gebruikt nog steeds dat basisidee, maar er zijn een heleboel lagen aan engineering bovenop gekomen. Bovendien bestaat de trainingsset tegenwoordig al snel uit miljoenen beelden.”
Poggio zelf is vooral geïnteresseerd in de fundamentele wetenschap die ten grondslag ligt aan lerende systemen. Zodra de toepassingen in zicht komen, dan laat hij het werk graag aan anderen over. Een van zijn voormalige post-docs, de Israëliër Amnon Shashua, heeft het bedrijf MobilEye opgericht. Dat bedrijf is inmiddels de belangrijkste leverancier van computervisiesoftware aan autofabrikanten als Audi, BMW en Toyota. Poggio: “De autonome auto van Google krijgt dan wel de meeste aandacht, maar praktisch gezien is een bedrijf als MobilEye veel belangrijker voor de implementatie van computervisie in auto’s.”
Einsteins genie
Als tiener was Tomaso Poggio, geboren en getogen in het Italiaanse Genua, gefascineerd door Einsteins relativiteitstheorie en door het genie van Einstein als persoon. “Dat je puur vanuit de theorie zulke diepe problemen als ruimte, tijd, massa en energie kon doorgronden, vond ik geweldig. Maar ik besefte dat er zoveel diepe problemen in de natuurkunde waren; veel te veel voor mij om ze op te lossen. Wat maakte Einstein zo intelligent? En wat nu als ik zelf intelligenter zou kunnen worden? Zo kwam ik op het idee dat als ik zou snappen wat intelligentie is, ik intelligentie misschien ook wel zou kunnen vergroten. Misschien zou ik dan een machine kunnen bouwen die mensen zou helpen intelligenter te worden zodat we al die moeilijke problemen zouden kunnen oplossen. Zo raakte ik geïnteresseerd in zowel de neurowetenschappen als in de computerwetenschappen.”
In de overlap van beide takken, de computationele neurowetenschappen, is Poggio een van ’s werelds meest geciteerde en gelauwerde wetenschappers. Hij is er van overtuigd dat de volgende stap in de ontwikkeling van kunstmatige intelligentie moet komen van een beter begrip van het menselijk brein. “Ja, we hebben nu Siri op de smartphone, we hebben Google Search, we hebben supercomputer Watson en we hebben computervisie zoals MobilEye. Dat zijn grote prestaties. Elk van deze systemen is net zo goed, of in het geval van Google Search zelfs veel beter, dan het menselijk brein. Maar wat nog steeds ontbreekt is een machine die intelligent is in de brede zin van het woord, in de zin van menselijke intelligentie. Een machine die in woorden kan vertellen wat er op een alledaagse beeld is te zien. Een machine die over het alledaagse leven kan praten. Kortom, een machine die zou slagen voor de Turing Test.”
Poggio verklaart die discrepantie uit het ontstaan van de kunstmatige intelligentie uit het werk van wiskundigen als Alan Turing en zijn voorgangers David Hilbert en Kurt Gödel. “Computers zijn ontstaan uit de logica en uit een poging om de wiskunde te formaliseren. Maar het type intelligentie dat deze wiskundigen probeerden te formaliseren, heeft niets te maken met het type intelligentie dat ons zenuwstelsel gebruikt. Computers zijn gebaseerd op een model van informatieverwerking waarin wij mensen helemaal niet goed zijn, zoals rekenen en logica. Computers zijn juist niet gebaseerd op het type intelligentie waarin wij mensen uitblinken: patroonherkenning op een associatieve manier, zoals we gebruiken bij visuele waarneming.”
Poggio vertelt een anekdote over Marvin Minsky, een van de grondleggers van de kunstmatige intelligentie: “Begin jaren zestig gaf Minsky het probleem van computervisie als zomerproject aan een van zijn studenten.” Hij laat even een stilte vallen en lacht dan hartelijk: “Een project voor een paar maanden!”
Wetenschappers zijn er er nu al meer dan een halve eeuw mee bezig. Omdat wij mensen zonder na te denken razendsnel de wereld om ons heen waarnemen, lijkt visuele waarneming zo’n simpel probleem. Maar het is niet voor niets dat zo’n dertig procent van de hersenschors in het menselijk brein wordt gebruikt voor visuele waarneming. De evolutie heeft haar handen vol gehad aan het vormgeven van efficiënte beeldverwerking. Daarom is visuele waarneming ook het modelsysteem dat Poggio gebruikt om uit te vinden wat intelligentie nu eigenlijk is. Als we begrijpen hoe ons visuele systeem waarneemt, dan begrijpen we volgens hem ook grotendeels welke hersenmechanismen ten grondslag liggen aan intelligentie.
Flitsherkenning
Op basis van onze kennis van de visuele waarneming door het menselijk brein, heeft Poggio een computermodel gebouwd dat net zo snel als mensen een dier op een plaatje herkent. Wanneer je een lange reeks foto’s snel achter elkaar aan menselijke proefpersonen laat zien, dan zijn ze bij elk beeld in staat om binnen vijftig tot honderd milliseconden te herkennen of er wel of niet een dier op staat. De plaatjes worden net lang genoeg getoond dat mensen zich bewust zijn van wat ze zien, maar kort genoeg om ze geen tijd te geven voor uitvoerige beeldinspectie. “Mensen voeren deze taak 80% correct uit. Ons model scoorde 82%. Dat was onverwacht goed. Wanneer mensen langer de tijd zouden krijgen, dan halen ze bijna 100%, maar omdat die bewuste beeldinspectie niet in ons model zat, hebben we ons gericht op het vergelijken van de snelle waarneming.”
Poggio’s model gebruikt een hiërarchie van waarnemingslagen. Op een basisniveau onderscheidt het model bijvoorbeeld randen van voorwerpen en de oriëntatie van lijnstukken. Hogere niveau’s onderscheiden vormen. De hoogste niveau’s onderscheiden bijvoorbeeld categorieën zoals dieren of voertuigen, en identiteiten zoals een kat of een auto.
Maar dan de stap van visuele waarneming naar intelligentie. Hoe hoopt Poggio daar een vinger achter te krijgen? “Cruciaal voor intelligentie”, zegt hij, “is de vaardigheid om te leren; om te generaliseren op basis van een klein aantal voorbeelden. Wanneer je vandaag een nieuw gezicht ziet, en je ziet het morgen opeens vanuit een heel andere hoek, in heel andere lichtomstandigheden, dan herken je het gezicht nog steeds. Het brein generaliseert met veel minder beelden dan computervisiesystemen nodig hebben.”
De afgelopen twee jaar heeft Poggio zich gestort op het ontwikkelen van een model dat een wiskundige beschrijving van een plaatje maakt, die onafhankelijk is van de toevallige omstandigheden waaronder de toeschouwer het beeld ziet. Deze wiskundige beschrijving blijft hetzelfde wanneer je het beeld een beetje draait, een beetje verplaatst of onder iets andere lichtcondities ziet. “Het laatste half jaar zijn daar hele mooie resultaten uitgerold. Het is een verrassend elegante wiskundige beschrijving. Het doet me weer denken aan de elegantie die je in de natuurkunde vindt. Fysici gaan uit van een bepaalde symmetrie of behoudswet en leiden daar bijvoorbeeld de wetten van de mechanica uit af. Onze theorie doet iets soortgelijks voor visuele waarneming. Uitgaande van enkele aannames kunnen we eigenschappen van hersencellen en netwerken van hersencellen afleiden. We kunnen voorspellingen doen over hoe het visuele systeem werkt en die voorspellingen zijn we nu aan het testen.”
Poggio wil nu de krachten bundelen om met een groot team van MIT-wetenschappers te ontrafelen wat intelligentie precies is en hoe het in machines gecreëerd kan worden. Hij heeft bij de Amerikaanse National Science Foundation (NSF) een voorstel ingediend voor het creëren van een nieuw MIT-instituut ‘Center for Brains, Minds and Machines’ dat al het MIT-onderzoek naar intelligentie − in de neurowetenschappen, de biologie, de kunstmatige intelligentie en in de psychologie − combineert. “Het gaat om een van de grootste NSF-subsidies. We hebben de laatste ronde gehaald en nog dit jaar horen we of we tot een van de winnaars behoren. Hoe dan ook, ik ben er van overtuigd dat het komende decennium een gouden tijd wordt voor intelligente machines, dankzij inzichten uit de neurowetenschappen.”
Internet
Website van Tomaso Poggio: http://bcs.mit.edu/people/poggio.html
Ter gelegenheid van het 150-jarig bestaan van MIT werd in 2011 het symposium ‘Brains, Minds and Machines’ georganiseerd. Dat symposium lag aan de grondslag van Poggio’s idee om al het MIT-onderzoek naar intelligentie te integreren: http://mit150.mit.edu/symposia/brains-minds-machines
In de overlap van beide takken, de computationele neurowetenschappen, is Poggio een van ’s werelds meest geciteerde en gelauwerde wetenschappers. Hij is er van overtuigd dat de volgende stap in de ontwikkeling van kunstmatige intelligentie moet komen van een beter begrip van het menselijk brein. “Ja, we hebben nu Siri op de smartphone, we hebben Google Search, we hebben supercomputer Watson en we hebben computervisie zoals MobilEye. Dat zijn grote prestaties. Elk van deze systemen is net zo goed, of in het geval van Google Search zelfs veel beter, dan het menselijk brein. Maar wat nog steeds ontbreekt is een machine die intelligent is in de brede zin van het woord, in de zin van menselijke intelligentie. Een machine die in woorden kan vertellen wat er op een alledaagse beeld is te zien. Een machine die over het alledaagse leven kan praten. Kortom, een machine die zou slagen voor de Turing Test.”
Poggio verklaart die discrepantie uit het ontstaan van de kunstmatige intelligentie uit het werk van wiskundigen als Alan Turing en zijn voorgangers David Hilbert en Kurt Gödel. “Computers zijn ontstaan uit de logica en uit een poging om de wiskunde te formaliseren. Maar het type intelligentie dat deze wiskundigen probeerden te formaliseren, heeft niets te maken met het type intelligentie dat ons zenuwstelsel gebruikt. Computers zijn gebaseerd op een model van informatieverwerking waarin wij mensen helemaal niet goed zijn, zoals rekenen en logica. Computers zijn juist niet gebaseerd op het type intelligentie waarin wij mensen uitblinken: patroonherkenning op een associatieve manier, zoals we gebruiken bij visuele waarneming.”
Poggio vertelt een anekdote over Marvin Minsky, een van de grondleggers van de kunstmatige intelligentie: “Begin jaren zestig gaf Minsky het probleem van computervisie als zomerproject aan een van zijn studenten.” Hij laat even een stilte vallen en lacht dan hartelijk: “Een project voor een paar maanden!”
Wetenschappers zijn er er nu al meer dan een halve eeuw mee bezig. Omdat wij mensen zonder na te denken razendsnel de wereld om ons heen waarnemen, lijkt visuele waarneming zo’n simpel probleem. Maar het is niet voor niets dat zo’n dertig procent van de hersenschors in het menselijk brein wordt gebruikt voor visuele waarneming. De evolutie heeft haar handen vol gehad aan het vormgeven van efficiënte beeldverwerking. Daarom is visuele waarneming ook het modelsysteem dat Poggio gebruikt om uit te vinden wat intelligentie nu eigenlijk is. Als we begrijpen hoe ons visuele systeem waarneemt, dan begrijpen we volgens hem ook grotendeels welke hersenmechanismen ten grondslag liggen aan intelligentie.
Flitsherkenning
Op basis van onze kennis van de visuele waarneming door het menselijk brein, heeft Poggio een computermodel gebouwd dat net zo snel als mensen een dier op een plaatje herkent. Wanneer je een lange reeks foto’s snel achter elkaar aan menselijke proefpersonen laat zien, dan zijn ze bij elk beeld in staat om binnen vijftig tot honderd milliseconden te herkennen of er wel of niet een dier op staat. De plaatjes worden net lang genoeg getoond dat mensen zich bewust zijn van wat ze zien, maar kort genoeg om ze geen tijd te geven voor uitvoerige beeldinspectie. “Mensen voeren deze taak 80% correct uit. Ons model scoorde 82%. Dat was onverwacht goed. Wanneer mensen langer de tijd zouden krijgen, dan halen ze bijna 100%, maar omdat die bewuste beeldinspectie niet in ons model zat, hebben we ons gericht op het vergelijken van de snelle waarneming.”
Poggio’s model gebruikt een hiërarchie van waarnemingslagen. Op een basisniveau onderscheidt het model bijvoorbeeld randen van voorwerpen en de oriëntatie van lijnstukken. Hogere niveau’s onderscheiden vormen. De hoogste niveau’s onderscheiden bijvoorbeeld categorieën zoals dieren of voertuigen, en identiteiten zoals een kat of een auto.
Maar dan de stap van visuele waarneming naar intelligentie. Hoe hoopt Poggio daar een vinger achter te krijgen? “Cruciaal voor intelligentie”, zegt hij, “is de vaardigheid om te leren; om te generaliseren op basis van een klein aantal voorbeelden. Wanneer je vandaag een nieuw gezicht ziet, en je ziet het morgen opeens vanuit een heel andere hoek, in heel andere lichtomstandigheden, dan herken je het gezicht nog steeds. Het brein generaliseert met veel minder beelden dan computervisiesystemen nodig hebben.”
De afgelopen twee jaar heeft Poggio zich gestort op het ontwikkelen van een model dat een wiskundige beschrijving van een plaatje maakt, die onafhankelijk is van de toevallige omstandigheden waaronder de toeschouwer het beeld ziet. Deze wiskundige beschrijving blijft hetzelfde wanneer je het beeld een beetje draait, een beetje verplaatst of onder iets andere lichtcondities ziet. “Het laatste half jaar zijn daar hele mooie resultaten uitgerold. Het is een verrassend elegante wiskundige beschrijving. Het doet me weer denken aan de elegantie die je in de natuurkunde vindt. Fysici gaan uit van een bepaalde symmetrie of behoudswet en leiden daar bijvoorbeeld de wetten van de mechanica uit af. Onze theorie doet iets soortgelijks voor visuele waarneming. Uitgaande van enkele aannames kunnen we eigenschappen van hersencellen en netwerken van hersencellen afleiden. We kunnen voorspellingen doen over hoe het visuele systeem werkt en die voorspellingen zijn we nu aan het testen.”
Poggio wil nu de krachten bundelen om met een groot team van MIT-wetenschappers te ontrafelen wat intelligentie precies is en hoe het in machines gecreëerd kan worden. Hij heeft bij de Amerikaanse National Science Foundation (NSF) een voorstel ingediend voor het creëren van een nieuw MIT-instituut ‘Center for Brains, Minds and Machines’ dat al het MIT-onderzoek naar intelligentie − in de neurowetenschappen, de biologie, de kunstmatige intelligentie en in de psychologie − combineert. “Het gaat om een van de grootste NSF-subsidies. We hebben de laatste ronde gehaald en nog dit jaar horen we of we tot een van de winnaars behoren. Hoe dan ook, ik ben er van overtuigd dat het komende decennium een gouden tijd wordt voor intelligente machines, dankzij inzichten uit de neurowetenschappen.”
Internet
Website van Tomaso Poggio: http://bcs.mit.edu/people/poggio.html
Ter gelegenheid van het 150-jarig bestaan van MIT werd in 2011 het symposium ‘Brains, Minds and Machines’ georganiseerd. Dat symposium lag aan de grondslag van Poggio’s idee om al het MIT-onderzoek naar intelligentie te integreren: http://mit150.mit.edu/symposia/brains-minds-machines