Waarom hardlopers straks weglopen met datasynthese

Geschreven door Marc van Belkum op Apr 07, 2022

Op blessures zit geen enkele hardloper te wachten. Maar wist je dat blessures in de meeste gevallen worden veroorzaakt door overbelasting? Bij Little Rocket denken we daarom dat atleten wel oren hebben naar een voorspelmodel dat waarschuwt wanneer het beter is om gas terug te nemen. In dit blog leggen we uit waarom we zo’n voorspelmodel bij voorkeur bouwen op basis van synthetische data, en wat synthetische data überhaupt zijn.

Als je data verzamelt over sportprestaties van hardlopers, gaat het bijvoorbeeld om persoonskenmerken en gegevens over trainingen en wedstrijden. Dit zijn ‘echte data’ die te herleiden zijn tot één persoon. Als je data van een grote groep sporters bij elkaar veegt, kun je een computer daarin laten zoeken naar verbanden en patronen.

Synthetische data worden gegenereerd door een algoritme. Het algoritme gebruikt de echte data als basis en neemt de statistische patronen daaruit over. Dus als veertig procent van de echte hardlopers vrouw is, is dat in de synthetische data ook zo. En als tien procent van deze vrouwen in een bepaald postcodegebied woont, dan wordt ook dat nagebootst.

Synthetische data zijn dus een zo realistisch mogelijke variant van een echte dataset, zonder dat een ‘record’ te herleiden is naar een specifiek persoon, bedrijf of ander object uit de echte databron. Omdat de patronen voor 98 procent overeenkomen, zijn synthetische data zeer betrouwbaar.

Geen problemen met privacy meer

Waarom dat handig is? Dat heeft alles te maken met privacy. Persoonlijke en gevoelige data mogen natuurlijk niet op straat komen te liggen. Door synthetische data te gebruiken, verdwijnt dat risico volledig. Want zelfs áls ongeautoriseerde derden door een lek data in handen krijgen, dan gaat het niet om gegevens van mensen van vlees en bloed.

Beter dan huidige oplossingen

Om problemen met privacy te voorkomen, is het nu nog gebruikelijk om data te bewerken. Je kunt ze anonimiseren, aggregeren en pseudonimiseren, maar dat heeft zo z’n nadelen.

  • Anonimiseren wil zeggen dat je de gegevens weggooit waaraan af te lezen is om welke persoon het gaat. Een databron bestaat bijvoorbeeld uit tien records over vijf hardlopers. Na het anonimiseren hou je tien records over, maar is niet meer helder van hoeveel mensen de data afkomstig zijn. Het kunnen gegevens zijn van één hardloper, maar ook van vijf of tien hardlopers. De betrouwbaarheid van de data neemt hierdoor af.
  • Aggregeren betekent dat je data categoriseert. Een hardloper van 35 valt daardoor in de categorie ‘tussen 30 en 40 jaar’. Achteraf weet je niet meer of iemand 31 was, of 35, of 40 jaar. Dit heeft ook een negatieve invloed op de datakwaliteit.
  • Bij pseudonimiseren doe je hetzelfde als bij anonimiseren: je gooit gevoelige data weg, zoals namen. Het verschil is dat je een unieke identifier koppelt aan de overgebleven gegevens van elke hardloper. Daardoor weet je nog steeds van hoeveel hardlopers je data hebt. In theorie blijft het mogelijk om te achterhalen wie wie is. Een lek van gepseudonimiseerde data wordt daarom gezien als een lek van persoonsgegevens, en dat is natuurlijk ook groot nadeel.

Betrouwbaardere voorspelmodellen

Synthetische data zijn goed te gebruiken als testdata en voor het ontwikkelen van betrouwbare voorspelmodellen. Een voorbeeld is een tool voor hardlopers die voorspelt wanneer het risico op overbelasting groot is. Atleten kunnen op basis van waarschuwingen besluiten om de intensieve training die op hun programma staat aan te passen en het even wat rustiger aan te doen. Ook kan zo’n voorspelmodel gebruikt worden om persoonlijke trainingsschema’s op te stellen.

Bij het ontwikkelen van een voorspelmodel, wordt gebruikgemaakt van artificiële intelligentie (AI). Ontwikkelaars bouwen een model dat in historische (echte) data zelf op zoek gaat naar patronen met een voorspellende waarde, en dat zichzelf leert om steeds betere voorspellingen te doen.

Veel voorspelmodellen worden vanwege de genoemde privacy-issues nu nog getraind met geaggregeerde en geanonimiseerde data. Maar omdat die data niet erg betrouwbaar zijn, slaan voorspelmodellen de plank in de praktijk nog weleens volledig mis. Dat kan vervelende gevolgen hebben. Daarom is het een veel beter idee om een voorspelmodel te trainen met synthetische data.

Meerdere databronnen gebruiken

Een extra voordeel van synthetische data is: je kunt ze genereren op basis van de gegevens uit één dataset, maar je kunt ook meerdere datasets als bron gebruiken. In het voorbeeld van de hardlopers kun je wedstrijddata bijvoorbeeld koppelen aan trainings- en lifestyle-data uit een smartwatch. Dat koppelen gebeurt in de backend, die onzichtbaar blijft voor de gebruiker van de synthetische data. De privacy van de hardloper blijft dus voortdurend gewaarborgd.

Extra veel data genereren

Nog een voordeel is dat je het algoritme extra data kunt laten aanmaken. Stel dat je echte dataset gegevens bevat van 10.000 hardlopers, dan kun je een synthetische dataset genereren met bijvoorbeeld 15.000 records. Dat is handig, omdat je een voorspelmodel alleen goed kunt trainen als je het voedt met voldoende data.

Gebruik synthetische data gaat stijgen

Op dit moment wordt er nog weinig gebruikgemaakt van synthetische data bij het ontwikkelen van voorspelmodellen. Maar dat gaat snel veranderen. Gartner, één van de grootste onderzoeks- en adviesbureaus van de IT-sector, verwacht een forse stijging: in 2024 zal al zestig procent van de voorspelmodellen gebaseerd zijn op synthetische data.

Natuurlijk zal een deel van de ontwikkelaars echte data blijven gebruiken. Sommigen blijven liever vasthouden aan wat ze kennen, en het genereren van synthetische data is ook niet gratis. Tegelijkertijd wordt de privacywetgeving steeds strenger.

Synthetische data: de toekomst van AI

Bij Little Rocket denken we daarom – net als Gartner – dat synthetische data de toekomst van AI zijn. We zijn er al volop mee aan de slag, en hopen dat we hardlopers straks kunnen helpen om blessurevrij de finish te halen, bijvoorbeeld van de Enschede Marathon.

- Synthetische data zijn te gebruiken voor het ontwikkelen van voorspellende modellen.

- Deze modellen worden hierdoor veel betrouwbaarder.

- En omdat synthetische data worden gegenereerd door een algoritme, zijn problemen metprivacy verleden tijd.

Wil je weten of datasynthese kansen biedt om jouw business succesvoller te maken? We denken graag mee over de mogelijkheden. Neem gerust contact op met Nienke Bruggeman.

Doe de datascan
Wil je weten welk level van datavolwassenheid jouw organisatie heeft, en wat je moet doen om verder te groeien? Doe dan eerst onze datascan.

  • ✔ Invullen kost enkele minuten
  • ✔ Je krijgt per e-mail een gratis rapport met toelichting
  • ✔ Binnen twee dagen weet je waar je staat

Benieuwd wat wij allemaal doen?

Bekijk al onze diensten en ontdek de mogelijkheden met data & AI.

Verwante
blogartikelen

Little Rocket beste analytics bureaus Emerce100

Laurens Slot
April 26, 2024
"3 min"

De sleutel tot succes: een effectieve datastrategie

Een datastrategie, of tegenwoordig zelfs een data & AI strategie, vormt de route voor het verzamelen, analyseren en gebruiken van data & AI.
Leen Timmers
February 1, 2024
15 min

De combinatie van Artificial Intelligence en zinvol werken

Dat de aandacht voor data & AI toeneemt en dat de waarde steeds vaker aangetoond wordt is duidelijk. Zo blijkt uit het thema van de 16e...
Leen Timmers
January 18, 2024
10 min

Wat is Infrastructure as Code?

Veel bedrijven specialiseren zich in software ontwikkeling of data. Bij Little Rocket doen we beide. We zoeken continue naar de beste...
July 30, 2020
15 min

Wat is GraphQL?

Wanneer je start met het bouwen van een webapplicatie zijn er talloze vragen die je moet beantwoorden. Welke technieken gebruik ik voor...
Michel Boezerooij
October 15, 2020
15 min

Van prep naar predictive: onze visie op data

Afgelopen week vond de Big Data Expo 2019 plaats in de jaarbeurs in Utrecht. Een plek waar mensen samenkomen met een gedeelde interesse...
February 29, 2020
5 min

De 7 dimensies van digitale volwassenheid die je moet weten voor je gaat transformeren

Digitale transformatie. We willen het allemaal, net zoals ‘iets met’ Big Data, Marketing Automation & AI. En we strugglen er ook...
Marc van Belkum
February 25, 2020
5 min

Groeien met data… daar komt geen einde aan

Zelfs als uit onze datascan blijkt dat je het hoogste level van datavolwassenheid hebt bereikt, kun je blijven groeien met data...
Marc van Belkum
June 20, 2023
10 min

Op weg naar een toekomst zonder geheimen 

Wat gaat er morgen gebeuren? Op die vraag kun je een behoorlijk betrouwbaar antwoord geven als je organisatie level 4 van...
Marc van Belkum
May 31, 2023
10 min

Waarom? Waarom? Waarom?

‘We halen veel nieuwe klanten binnen, halen onze salestargets, maar waarom stijgt onze omzet niet?’ Met dit soort waarom-vragen ga je aan...
Marc van Belkum
May 4, 2023
10 min

Wie is de beste data-ontdekker?

Komt uit onze datascan dat je op level 2 zit van datavolwassenheid? Dan is het tijd om te experimenteren! In deze fase heb je al wat data...
Marc van Belkum
April 26, 2023
10 min

Waarom kwalitatieve data broodnodig is

Elk bedrijf, groot of klein, heeft data. Maar niet elk bedrijf dóet iets met die data. In dit tweede blog (uit een serie van zes) lees je...
Marc van Belkum
April 5, 2023
10 min

Claim nú marketingbudget voor Google Analytics 4 in 2023

Kijk je soms, regelmatig of vaak naar de bezoekersaantallen van je website? Maar zegt de datum 1 juli 2023 je weinig? Dan ben je niet...
Leen Timmers
November 24, 2022
5 min

Third party data stopt, zet je eigen data in voor sales & marketing!

Met het steeds verder beperken van third party (cookie) data verandert het digital marketing landschap sterk. En daarmee ook de...
May 28, 2020
10 min

De waarde van data analyse voor jouw bedrijf

Ieder bedrijf genereert data, bewust of onbewust. Als je die data links laat liggen gebeurt er niets. Gebruik je data om beter te worden.
Jelle Scholten
May 20, 2020
5 min

In drie stappen van data naar business inzicht

In de afgelopen jaren hebben veel bedrijven steeds meer data verzameld. Waarom? Omdat data het nieuwe goud is....
Jelle Scholten
February 27, 2020
5 min

De vijf levels van data-volwassenheid

Hoe hard is het nodig voor jouw bedrijf om te investeren in data? Dat hangt af van twee dingen: hoe datavolwassen je concurrenten...
Marc van Belkum
September 7, 2022
4 min

“Dankzij data maken we nu slimmere keuzes”

We horen de term steeds vaker: datavolwassenheid. Terecht, wat ons betreft, want bedrijven die mede dankzij data...
Leen Timmers
October 5, 2022
3 min