donderdag 08 maart 2018

Anoniem zijn volstaat niet meer

Een wereld die we ons enkele jaren geleden alleen nog maar konden inbeelden, wordt stilaan werkelijkheid.

Yves-Alexandre de Montjoye (Professor aan het Imperial College van Londen) en Julien Hendrickx (Professor aan de Uiniversité Catholique de Louvain) schrijven voor de vrijdaggroep. Eveneens verschenen op knack.be van 9 maart 2018.

Een wereld die we ons enkele jaren geleden alleen nog maar konden inbeelden, wordt stilaan werkelijkheid. Auto's leren hoe ze autonoom moeten rijden en algoritmen geven de medische zorg, stadsplanning en onderzoek ongeziene mogelijkheden. Artificiële intelligentie (AI), bijvoorbeeld, worden al gebruikt om moleculen met hoge impact te identificeren voor de ontwikkeling van geneesmiddelen en om een huidkankerdiagnoses te versnellen, met een nauwkeurigheid die te vergelijken is met die van dermatologen. AI verandert onze economie en zal ingrijpende gevolgen hebben voor onze manier van werken, leven en communiceren.

De voedingsbodem van AI is echter dat, hoewel de technieken zeker geëvolueerd zijn en de rekencapaciteit toegenomen is, een groot deel van de huidige vooruitgang te danken is aan een ongekende toegang tot gegevens. Hoe leren AI-algoritmen en hoe worden ze slimmer? Door Facebook-likes, medische gegevens, gps-sporen, zoekopdrachten via Google, creditcardtransacties of gegevens van versnellingsmeters - gegevens die ieder van ons constant genereert tijdens zijn of haar leven.

De verzameling en het gebruik van deze gegevens om AI-algoritmen te trainen doet vragen rijzen omtrent privacy, die beantwoord moeten worden. Deze gegevens bevatten gedetailleerde en vaak gevoelige informatie over het gedrag, de medische toestand, de reisgewoonten en de levensstijl van mensen. Zo zullen gegevens van slimme meters bijvoorbeeld veel vertellen over iemands slaappatronen of avondactiviteiten, en het werd aangetoond dat mobiele telefoongegevens gebruikt kunnen worden om de mate van neuroticisme of extraversie of het geslacht van de eigenaar te voorspellen. Zoals gezegd: gevoelige informatie.

Wanneer deze punten echter aangehaald worden, is het antwoord vaak hetzelfde: het algoritme (en zijn ontwikkelaars) hoeven niet te weten wie gebruiker r3579x is, de gegevens werden geanonimiseerd. Namen en telefoonnummers werden uit het gegevensbestand verwijderd en er werden een aantal anonimiseringstechnieken toegepast. Dit argument wordt veel gebruikt, onlangs nog door Bart De Wever met betrekking tot de locatiegegevens van mobiele telefoons in Antwerpen: “Wij traceren alleen het signaal. We weten niet wiens telefoon het is. De gegevens zijn anoniem.”

Onderzoek toont echter aan dat het niet zo eenvoudig is. Moderne gegevensbestanden die door AI-algoritmen gebruikt worden, bevatten honderdduizenden stukjes informatie van een persoon. Mobiele telefoongegevens bevatten alle plaatsen waar je jarenlang naartoe gegaan bent, en surfgegevens bevatten elke webpagina die je ooit bezocht hebt.

Data wetenschappers hebben inderdaad aangetoond dat wij allemaal op onze eigen manier uniek zijn, en dat er zo veel informatie over personen in die gegevensbestanden zit dat het een fluitje van een cent is om te weten te komen dat r3579x Mevrouw Janssens is. Een gezamenlijke studie van de UCL en het MIT toonde aan dat het volstaat om amper 4 keer in een tijdspanne van 15 maanden te weten waar een persoon was op een bepaald tijdstip, om hem opnieuw te identificeren in een eenvoudig geanonimiseerd gegevensbestand van mobiele telefoons van meer dan 1,5 miljoen personen en zijn volledige locatiegeschiedenis te ontrafelen. Daarnaast toonden onderzoekers aan dat het eenvoudig was om personen opnieuw te identificeren in een gegevensbestand met creditcardtransacties, surfgeschiedenis of Netflix-beoordelingen met maar enkele stukjes informatie.

Het handige, intuïtieve idee van het 'anonimiseren van gegevens' beschermt de privacy niet in de moderne wereld. Zoals de Council of Advisors on Science and Technology van president Obama (PCAST) al zei, is het “geen nuttige basis [meer] voor beleid”.

In mei treedt de nieuwe Europese verordening inzake gegevensbescherming (GDPR) in werking, en onze eigen Privacycommissie wordt hervormd. Betekent dit dat wij ofwel de enorme voordelen van AI voor de maatschappij, ofwel de privacy moeten opgeven?

Gelukkig niet. In het laatste decennium werden heel wat zogenaamde 'privacy engineering'-technieken ontwikkeld, die ons moeten helpen om gegevens op een veilige manier te gebruiken, en in de komende jaren zullen nog heel wat nieuwe ontdekkingen gedaan worden. Zo geeft 'differential privacy' je aantoonbare privacywaarborgen bij zoekopdrachten, stelt homomorfe encryptie je in staat om berekeningen uit te voeren op versleutelde gegevens zonder dat de onderzoeker er toegang tot dient te hebben en maakt 'private set intersection' het mogelijk om gegevensbestanden veilig te combineren. Geen van deze technieken is perfect of een toverstokoplossing, maar samen stellen ze je in staat om robuuste privacybeschermende systemen uit te bouwen, zoals i2b2 in Zwitserland voor generieke gegevens of OPAL voor mobiele telefoongegevens.

Beide bedrijven en de overheid hebben een grote hoeveelheid gegevens ter beschikking die geweldige toepassingen hebben in AI en die van groot belang kunnen zijn voor de toekomst van Belgische AI-start-ups. Openbare en privégegevens moeten veel meer dan nu gebruikt worden, maar wel op de juiste manier. Standaardverklaringen dat de gegevens geanonimiseerd zijn, zijn niet langer aanvaardbaar. Het wordt tijd dat wij onze benadering van gegevensbescherming opnieuw bekijken. 'Privacy engineering'-oplossingen komen op de eerste plaats bij deze inspanning. Ze vormen de hoeksteen voor het veilige gebruik van gegevens op grote schaal. Want louter anoniem zijn, volstaat al lang niet meer.