Saturday, April 21, 2018

De mens wikt, het algoritme beschikt

Computeralgoritmen nemen steeds vaker belangrijke beslissingen over ons. Kunnen ze ons ook uitleggen hoe ze dat precies doen?

Dit artikel is gepubliceerd in de VPRO Gids van de week van 16 april.


Begin dit jaar ontstond in Nederland grote ophef over het bedrijf e-Court, een private, digitale ‘rechter’ die uitspraken doet over betalingsgeschillen tussen een zorgverzekeraar en een klant. Het bedrijf werd gebrek aan transparantie verweten over hoe de uitspraken van de robotrechter tot stand kwamen. De voorzitter van de Raad voor de Rechtspraak, Frits Bakker, zei dat hij vreest dat e-Court de juridische rechten van burgers aantast.

Steeds vaker nemen computeralgoritmen belangrijke beslissingen over burgers, consumenten en werknemers, in de vs nog vaker dan in Nederland: Wie krijgt er een lening? Wie wordt toegelaten tot een land? Wie komt op de no-fly-lijst van een vliegtuigmaatschappij? Hoe goed presteert een werknemer? Welke sollicitanten komen door de eerste selectie? Laat een medische scan wel of niet een tumor zien? De computer is snel, raakt niet vermoeid en heeft geen last van emoties. Handig, op het eerste gezicht.

Toch bleken zulke computerbeslissingen de afgelopen jaren lang niet altijd goed uit te pakken. Naar schatting worden meer dan duizend mensen per week door een algoritme op een luchthaven ten onrechte als terrorist aangemerkt. Een lerares uit Washington dc werd jarenlang door haar leerlingen als uitmuntend beoordeeld tot een algoritme haar opeens ongeschikt achtte. Software die in de Amerikaanse staat Florida wordt gebruikt om het recidiverisico van gevangenen in te schatten, bleek bevooroordeeld tegenover zwarte mensen. Dit laatste voorbeeld komt zondag uitgebreid aan bod in de VPRO Tegenlicht-aflevering over algoritmen.

Transparant
Tot enkele jaren geleden waren computerbeslissingen altijd transparant, omdat ze geprogrammeerd werden volgens duidelijke regels die iedereen kan natrekken: als [dit het geval is], doe dan [dat]. Maar de nieuwste computeralgoritmen werken heel anders. Ze bestaan uit tientallen lagen van kunstmatige neuronen en bootsen op een rudimentaire manier na hoe menselijke hersenen werken. Ze leren van grote hoeveelheden voorbeelden en herprogrammeren zichzelf.

Lerende computers hebben de afgelopen jaren spectaculaire resultaten opgeleverd. Neem de go-computer AlphaGoZero, die met alleen de spelregels, maar zonder enige andere menselijke kennis over hoe je goed go speelt, binnen een paar weken veel sterker werd dan de beste menselijke go-spelers. Het grote nadeel is echter dat zelfs de makers van lerende algoritmen niet meer precies weten waarom een algoritme doet wat het doet. Informatie ligt namelijk niet meer opgeborgen in overzichtelijke digitale vakjes, maar ligt op een onoverzichtelijke manier verspreid over een verzameling kunstmatige neuronen. Voor het eerst in de historie maken mensen iets wat ze zelf niet meer tot in detail begrijpen.

Bij het go-spel is dat niet zo erg, maar dat ligt anders bij computers die beslissingen nemen over mensen. Hoe groter de potentiƫle gevolgen van een computerbeslissing voor burgers, werknemers of consumenten, hoe meer zij mogen verwachten dat transparant gemaakt kan worden waarom een computer een bepaalde beslissing heeft genomen. De grote vraag is nu hoe we ervoor kunnen zorgen dat computerbeslissingen transparant zijn.

Hallucineren
Om dit probleem op te lossen worden momenteel drie paden bewandeld. Allereerst wordt gezocht naar technische oplossingen. Nadat MIT-hoogleraar informatica Regina Barzilay succesvol behandeld werd voor borstkanker, ging ze met enkele collega’s aan de slag om een computeralgoritme te ontwikkelen dat niet alleen vroege signalen van borstkanker in een mammogram herkent, maar er meteen ook bij vertelt waarom het die conclusie trekt. Het onderzoeksveld van algoritmen die hun eigen beslissingen toelichten staat echter nog in de kinderschoenen.

In 2015 vonden onderzoekers van Google een manier om een algoritme dat dierengezichten in foto’s herkent te laten illustreren hoe het een bepaald beeld ziet. Gegeven een bepaalde foto lieten ze de computer het beeld pixel voor pixel aanpassen zodanig dat de kunstmatige neuronen die getraind waren om dierengezichten te herkennen optimaal getriggerd werden. Opeens doken in een foto van een bloem allerlei ogen op, maar ook een hondenkop en een vissenkop. Het algoritme, Deep Dream gedoopt, was als het ware aan het hallucineren geslagen.

Hoe goed algoritmen ook zijn, en hoezeer hun makers ook hun best doen om ze te laten uitleggen wat ze doen, wanneer ze worden getraind met voorbeelden die allerlei menselijke tekortkomingen bevatten dan kopieert de computer zulke tekortkomingen. In 2017 liet Joanna Bryson van de Universiteit van Bath samen met enkele collega’s zien dat computers die taal leren uit alledaagse teksten op het internet dezelfde stereotypen over gender, ras, etniciteit en leeftijd ontwikkelen als mensen hebben. Bryson zei hierover tegen de auteur van dit artikel: “Sommige mensen zien kunstmatige intelligentie als zuiver rationeel of objectief, anderen zien het als bovenmenselijk of buitenaards. Maar wij laten zien dat kunstmatige intelligentie gewoon een verlengstuk is van onze eigen cultuur.”

Waakhond
Een tweede manier om voor meer transparantie te zorgen bij algoritmische beslissingen, vertrekt niet bij de techniek maar bij de wetgeving. Zo treedt op 25 mei 2018 binnen de EU een nieuwe wet in werking: de General Data Protection Regulation. Deze nieuwe wet vereist onder andere dat elke beslissing die door een computer wordt genomen uitlegbaar is. Die uitleg hoeft niet perse van het algoritme zelf te komen, maar mag ook komen van de leveraar of de maker van het algoritme.

Hier gaat echter de schoen wringen. Bedrijven die een algoritme ontwikkelen, willen geheim houden hoe het werkt. Google maakt de details van haar zoekalgoritme echt niet openbaar. De kunst is dan ook om een balans te zoeken tussen algoritmische transparantie aan de ene kant en het commerciƫle belang van geheimhouding aan de andere kant. Een onafhankelijke derde partij, een soort waakhond voor algoritmen, zou voor die balans kunnen zorgen. Wanneer burgers of consumenten willen weten waarom een algoritme een bepaalde beslissing heeft genomen, kan deze waakhond dat onderzoeken zonder dat het algoritme op straat komt te liggen. Dit is een derde pad dat bewandeld kan worden om algoritmische beslissingen transparanter te maken.

Meest waarschijnlijk is dat in de toekomst een combinatie van deze drie oplossingen de praktijk wordt: juridische en technische oplossingen gecombineerd met een onafhankelijke waakhond. Natuurlijk biedt dit geen garantie dat computerbeslissingen foutloos zijn, maar net als met dijken en bruggen, gaat het er om dat we de risico’s dat het mis gaat minimaliseren tot aanvaardbare proporties.

Foppen
Zoals we menselijk gedrag lang niet altijd tot in detail begrijpen, zo zullen we er volgens informaticus Jeff Clune van de Universiteit van Wyoming aan moeten wennen dat we ook computerbeslissingen niet tot in detail zullen begrijpen. Tegen MIT Technology Review zei hij vorig jaar: “Zelfs als iemand je een redelijk klinkende verklaring geeft van zijn of haar handelingen, dan nog is deze waarschijnlijk incompleet. Hetzelfde geldt waarschijnlijk ook voor kunstmatige intelligentie. Het zou wel eens een fundamentele eigenschap van intelligentie kunnen zijn dat slechts een deel ervan rationeel uitlegbaar is. Een ander deel is instinctief, onbewust of ondoorgrondelijk.”

Clune ontdekte in 2014 dat kunstmatige neurale netwerken die beelden herkennen vaak gemakkelijk te foppen zijn. Door bijvoorbeeld een sticker, die er voor mensen uitziet als een ongeordende combinatie van kleuren, naast een banaan te leggen ziet de computer de banaan ineens als een broodrooster, een fout die geen kind ooit zal maken. Dit voorbeeld laat zien dat kunstmatige neurale netwerken de wereld anders zien dan mensen en dat er nog veel werk aan de winkel is om lerende computers robuuster en intelligenter te maken.

Het voordeel van computers boven mensen is echter wel dat wanneer makers of gebruikers tekortkomingen in een algoritme of in de data ontdekken, deze tekortkomingen vaak te repareren zijn. Menselijke tekortkomingen zijn veel hardnekkiger. Mensen maken fouten door vermoeidheid, discrimineren bewust of onbewust, laten zich leiden door emoties, hebben een slechte dag of misbruiken hun macht, en meestal blijven deze tekortkomingen niet tot een keer beperkt. In 2011 lieten onderzoekers zien dat gevangenen een significant grotere kans hebben op vervroegde vrijlating wanneer ze ofwel vroeg in de ochtend ofwel net na de lunch moeten verschijnen voor de rechter. Zo objectief zijn menselijke rechters dus kennelijk ook niet. De lijst met denkfouten die psychologen in de loop der jaren hebben ontdekt en waaraan het menselijk brein geregeld ten prooi valt, bevat vele tientallen cognitieve eigenaardigheden.

Vertrouwen
De Amerikaanse filosoof Daniel Dennett, die al decennialang schrijft over menselijke en kunstmatige intelligentie, zei tegenover het tijdschrift MIT Technology Review: “We moeten zo goed mogelijk grip krijgen op hoe en waarom algoritmen de antwoorden geven die ze geven. Maar omdat het goed kan zijn dat er geen perfect antwoord is, moeten we net zo voorzichtig zijn met de uitleg van een algoritme als met de uitleg van andere mensen, hoe slim de machine ook lijkt. Als de machine niet beter dan wij kan uitleggen wat ze doet, vertrouw haar dan niet.”

Het grootste gevaar is niet dat kunstmatige intelligentie de wereld van de mens gaat overnemen, maar dat we te veel vertrouwen op kunstmatige intelligentie. Wanneer er niet veel op het spel staat, kunnen we degelijke geteste computeralgoritmen best op tegen houtje laten beslissen. Maar bij beslissingen waarbij wel veel op het spel staat, in de rechtbank, in de gezondheidszorg of in het onderwijs bijvoorbeeld, is het beter om mens en computer samen te laten oordelen. Bij een wetenschappelijke test uit 2016 van borstkankerdetectie in mammogrammen stelde het beste algoritme in 8% van de gevallen een foute diagnose, de beste arts in 3,4% van de gevallen, maar arts en computer samen maakten slechts in 0,5% van de gevallen een foute diagnose: veel beter dan zowel de beste arts als de beste computer.