In vijftig jaar tijd zijn we de controle over onze digitale gezichten kwijtgeraakt. Veel gebruikte dataverzamelingen leiden tot fouten, discriminatie en privacyschending bij automatische gezichtsherkenning.
Dit artikel is gepubliceerd in NRC Handelsblad van zaterdag 3 april 2021 (online reeds op 2 april)
Heb je tussen 2004 en 2020 foto’s van je vakantie of je feest geüpload naar de populaire website Flickr, dan is de kans groot dat de gezichten op die foto’s zijn gebruikt voor het verbeteren van AI-technologie die automatisch gezichten herkent. En die technologie kan door universiteiten, bedrijven en zelfs voor defensie- of surveillance-gerelateerde toepassingen zijn gebruikt. Het toont een van de vele problemen met dataverzamelingen die worden gebruikt voor het trainen van gezichtsherkenningssoftware.
Afgelopen januari lanceerden de onderzoekers en kunstenaars Adam Harvey en Jules LaPlace het project Exposing.ai om het probleem met de Flickr-foto’s aan de kaak te stellen. Exposing.ai is een zoekmachine waarmee je kunt kijken of jouw Flickr-foto’s zijn gebruikt in enkele van de wereldwijd meest gebruikte gezichtsdataverzamelingen. Zo ontdekte de Amerikaanse documentaire filmmaker Brett Gaylor dat honderden van zijn trouwfoto’s die hij in 2006 op Flickr had geplaatst anno 2021 ongevraagd in talloze veel gebruikte dataverzamelingen rondspoken. Gaylor kwam er zelfs achter dat zijn foto’s gebruikt zijn voor het trainen van gezichtsherkenningssystemen die de Chinese overheid inzet voor het in de gaten houden van de Oeigoerse moslimminderheid. De Amerikaan maakt nu een documentaire over het onverwachte lot van zijn trouwfoto’s.
Vorig jaar ontstond opschudding over het Amerikaanse bedrijf Clearview.AI dat zonder toestemming miljarden foto’s van gezichten van sociale media haalde en beweert bijna iedereen die ooit foto’s heeft geüpload te kunnen herkennen, ongeacht afkomst. Inmiddels lopen in de VS diverse rechtszaken tegen het bedrijf. Harvey en LaPlace hopen dat hun project bijdraagt aan het stoppen van het zonder toestemming verzamelen van gezichtsfoto’s van internet.
Hoe omvangrijk zijn de problemen bij het verzamelen van data voor het trainen automatische gezichtsherkenning? Hoe zijn de problemen ontstaan? En vooral: hoe zijn ze op te lossen?
Lees het hele artikel op de website van NRC Handelsblad.
Een korte geschiedenis van gezichtsherkenning
Fase 1: Academische pioniersfase (1964-1995): Handmatig aanleggen van databases met toestemming van de gefotografeerde personen.
Fase 2: Begin van commerciële toepassingen (1996-2006): De in 1996 vrijgegeven gezichtsdatabase FERET (gefinancierd door het Amerikaanse Ministerie van Defensie) vormt een stimulans voor academische en commerciële gezichtsherkenning.
2001 — De terroristische aanslagen van 11 september geven een grote impuls aan automatische gezichtsherkenning. De stad New York installeert kort na de aanslagen duizenden camera’s in de publieke ruimte.
Fase 3: Gezichtsherkenning wordt mainstream (2007-2013): In 2007 wordt de dataset ‘Labeled Faces in the Wild’ (University of Massachusetts, Amherst) publiek gemaakt. Voor het aanleggen van LFW werd het web afgestruind en werden zonder toestemming foto’s verzameld van o.a. Google, Flickr en Yahoo. Begin van een wildwestperiode van dataverzameling.
2010 — Facebook introduceert de functie ‘tag suggestions’ die de namen van vrienden voorstelt die voorkomen op Facebook-foto’s
Fase 4: Doorbraak van Deep Learning op willekeurige datasets (2014-nu): Het DeepFace-model van Facebook, gebaseerd op de toen net doorgebroken deep learning-technologie, verbetert gezichtsherkenning sterk. Toenemende zorgen over schending van privacy, bias en discriminatie in de toepassing van gezichtsherkenning.
2015 — Google Photos labelt een foto van een zwarte jongen en een zwart meisje als ‘gorilla’s’.
2018 — Joy Buolamwini en Timnit Gebru ontdekken dat een veel gebruikte dataverzameling voor 75% mannelijke gezichten bevat en voor 80% gezichten van witte mensen. Dat leidt tot discriminatie van zwarte mensen.
2018 — In een test van Amazon Rekognition worden 28 Amerikaanse congresleden onterecht voor gearresteerde criminelen aangezien.
2019 — Als eerste stad in de VS verbiedt San Francisco het gebruik van gezichtsherkenning in het publieke domein.
2020 — Opschudding over het bedrijf Clearview.AI, dat zonder toestemming miljarden foto’s van gezichten van sociale mediaplatforms als Facebook en Instagram haalde. Het bedrijf beweert dat zijn algoritme veel beter is dan alle andere op de markt.
2020 — IBM, Amazon en Microsoft besluiten de ontwikkeling van gezichtsherkenningssoftware op een laag pitje te zetten totdat er een wettelijke basis bestaat die de mensenrechten waarborgt.
2020 — Opschudding rond de toepassing PULSE die korrelige foto’s omzet in scherpe foto’s maar daarbij van zwarte mensen witte mensen maakt.
2021 — Onderzoekers vervagen uit privacy-overwegingen 243.000 gezichten in de veel gebruikte beelddataset ImageNet, bestaande uit 1,5 miljoen foto’s.
2021 — De Raad van Europa pleit voor strikte regulering gezichtsherkenning in de EU-landen. Toepassing van gezichtsherkenning door bedrijven in winkelcentra, voor marketing en voor beveiliging zou verboden moeten worden.