Als je data verzamelt over sportprestaties van hardlopers, gaat het bijvoorbeeld om persoonskenmerken en gegevens over trainingen en wedstrijden. Dit zijn ‘echte data’ die te herleiden zijn tot één persoon. Als je data van een grote groep sporters bij elkaar veegt, kun je een computer daarin laten zoeken naar verbanden en patronen.

Synthetische data worden gegenereerd door een algoritme. Het algoritme gebruikt de echte data als basis en neemt de statistische patronen daaruit over. Dus als veertig procent van de echte hardlopers vrouw is, is dat in de synthetische data ook zo. En als tien procent van deze vrouwen in een bepaald postcodegebied woont, dan wordt ook dat nagebootst.

Synthetische data zijn dus een zo realistisch mogelijke variant van een echte dataset, zonder dat een ‘record’ te herleiden is naar een specifiek persoon, bedrijf of ander object uit de echte databron. Omdat de patronen voor 98 procent overeenkomen, zijn synthetische data zeer betrouwbaar.

Geen problemen met privacy meer

Waarom dat handig is? Dat heeft alles te maken met privacy. Persoonlijke en gevoelige data mogen natuurlijk niet op straat komen te liggen. Door synthetische data te gebruiken, verdwijnt dat risico volledig. Want zelfs áls ongeautoriseerde derden door een lek data in handen krijgen, dan gaat het niet om gegevens van mensen van vlees en bloed.

Beter dan huidige oplossingen

Om problemen met privacy te voorkomen, is het nu nog gebruikelijk om data te bewerken. Je kunt ze anonimiseren, aggregeren en pseudonimiseren, maar dat heeft zo z’n nadelen.

  • Anonimiseren wil zeggen dat je de gegevens weggooit waaraan af te lezen is om welke persoon het gaat. Een databron bestaat bijvoorbeeld uit tien records over vijf hardlopers. Na het anonimiseren hou je tien records over, maar is niet meer helder van hoeveel mensen de data afkomstig zijn. Het kunnen gegevens zijn van één hardloper, maar ook van vijf of tien hardlopers. De betrouwbaarheid van de data neemt hierdoor af.
  • Aggregeren betekent dat je data categoriseert. Een hardloper van 35 valt daardoor in de categorie ‘tussen 30 en 40 jaar’. Achteraf weet je niet meer of iemand 31 was, of 35, of 40 jaar. Dit heeft ook een negatieve invloed op de datakwaliteit.
  • Bij pseudonimiseren doe je hetzelfde als bij anonimiseren: je gooit gevoelige data weg, zoals namen. Het verschil is dat je een unieke identifier koppelt aan de overgebleven gegevens van elke hardloper. Daardoor weet je nog steeds van hoeveel hardlopers je data hebt. In theorie blijft het mogelijk om te achterhalen wie wie is. Een lek van gepseudonimiseerde data wordt daarom gezien als een lek van persoonsgegevens, en dat is natuurlijk ook groot nadeel.

Betrouwbaardere voorspelmodellen

Synthetische data zijn goed te gebruiken als testdata en voor het ontwikkelen van betrouwbare voorspelmodellen. Een voorbeeld is een tool voor hardlopers die voorspelt wanneer het risico op overbelasting groot is. Atleten kunnen op basis van waarschuwingen besluiten om de intensieve training die op hun programma staat aan te passen en het even wat rustiger aan te doen. Ook kan zo’n voorspelmodel gebruikt worden om persoonlijke trainingsschema’s op te stellen.

Bij het ontwikkelen van een voorspelmodel, wordt gebruikgemaakt van artificiële intelligentie (AI). Ontwikkelaars bouwen een model dat in historische (echte) data zelf op zoek gaat naar patronen met een voorspellende waarde, en dat zichzelf leert om steeds betere voorspellingen te doen.

Veel voorspelmodellen worden vanwege de genoemde privacy-issues nu nog getraind met geaggregeerde en geanonimiseerde data. Maar omdat die data niet erg betrouwbaar zijn, slaan voorspelmodellen de plank in de praktijk nog weleens volledig mis. Dat kan vervelende gevolgen hebben. Daarom is het een veel beter idee om een voorspelmodel te trainen met synthetische data.

Meerdere databronnen gebruiken

Een extra voordeel van synthetische data is: je kunt ze genereren op basis van de gegevens uit één dataset, maar je kunt ook meerdere datasets als bron gebruiken. In het voorbeeld van de hardlopers kun je wedstrijddata bijvoorbeeld koppelen aan trainings- en lifestyle-data uit een smartwatch. Dat koppelen gebeurt in de backend, die onzichtbaar blijft voor de gebruiker van de synthetische data. De privacy van de hardloper blijft dus voortdurend gewaarborgd.

Extra veel data genereren

Nog een voordeel is dat je het algoritme extra data kunt laten aanmaken. Stel dat je echte dataset gegevens bevat van 10.000 hardlopers, dan kun je een synthetische dataset genereren met bijvoorbeeld 15.000 records. Dat is handig, omdat je een voorspelmodel alleen goed kunt trainen als je het voedt met voldoende data.

Gebruik synthetische data gaat stijgen

Op dit moment wordt er nog weinig gebruikgemaakt van synthetische data bij het ontwikkelen van voorspelmodellen. Maar dat gaat snel veranderen. Gartner, één van de grootste onderzoeks- en adviesbureaus van de IT-sector, verwacht een forse stijging: in 2024 zal al zestig procent van de voorspelmodellen gebaseerd zijn op synthetische data.

Natuurlijk zal een deel van de ontwikkelaars echte data blijven gebruiken. Sommigen blijven liever vasthouden aan wat ze kennen, en het genereren van synthetische data is ook niet gratis. Tegelijkertijd wordt de privacywetgeving steeds strenger.

Synthetische data: de toekomst van AI

Bij Little Rocket denken we daarom – net als Gartner – dat synthetische data de toekomst van AI zijn. We zijn er al volop mee aan de slag, en hopen dat we hardlopers straks kunnen helpen om blessurevrij de finish te halen, bijvoorbeeld van de Enschede Marathon.

– Synthetische data zijn te gebruiken voor het ontwikkelen van voorspellende modellen.

– Deze modellen worden hierdoor veel betrouwbaarder.

– En omdat synthetische data worden gegenereerd door een algoritme, zijn problemen metprivacy verleden tijd.

Wil je weten of datasynthese kansen biedt om jouw business succesvoller te maken? We denken graag mee over de mogelijkheden. Neem gerust contact op met Nienke Bruggeman.