Van prep naar predictive: onze visie op data
Specialisten in dit werkgebied
Afgelopen week vond de Big Data Expo 2019 plaats in de jaarbeurs in Utrecht. Een plek waar mensen samenkomen met een gedeelde interesse voor data. Ook wij waren hier aanwezig om nieuwe ideeën op te doen en te leren van andere specialisten binnen dit werkgebied. Hieronder zullen we een aantal inzichten met jullie delen.
ETL proces
Een van de focuspunten tijdens het programma was het inrichten van een goed datalandschap. Het grootste gedeelte van de tijd is een data specialist namelijk bezig met het prepareren van de data. Ook tijdens de Big Data Expo werd er uitgebreid stilgestaan bij dit onderwerp en uitgelicht hoe belangrijk het is om het datalandschap in orde te hebben, voordat er fancy visualisaties gemaakt kunnen worden of voorspelmodellen worden toegepast. Maar hoe werkt dit?
ETL staat voor Extract, Transform en Load. Extract is het proces waarbij data zonder bewerking ontsloten wordt vanuit verschillende bronsystemen. Vervolgens moet de data getransformeerd worden (Transform). Dit wordt ook wel ‘data cleaning’ genoemd - de data wordt gestructureerd op basis van feiten en dimensies. De uitkomst hiervan is een datamodel van de verschillende datasets op basis van gelijke sleutels. De laatste stap in dit proces is Load, waarin de getransformeerde data wordt gebruikt voor onder andere de volgende doeleinden: dashboarding, predictive analytics en data management.
Cloud migratie
Op het gebied van cloud migratie waren er ook enkele sprekers, waaronder Rutger de Graaf (Data Architect bij Randstad Groep Nederland). In de afgelopen jaren hebben zij een volledige transitie vanuit lokale serverparken naar serverless oplossingen in de cloud van Amazon Web Services. Services als Redshift, Mattilion, S3, EC2 en Lambda functies zijn besproken. Het serverless transformeren van data in de cloud, zoals Little Rocket dit nu ook voor diverse klanten doet, bevestigd dat we een goede weg inslaan met hypermoderne oplossingen.
Daarnaast hebben we een bijeenkomst van VGZ bijgewoond. VGZ gaf een lezing over hoe zij met behulp van een consultancy bureau een datagedreven organisatie zijn geworden. Het oude datalandschap had hoge data-opslagkosten en kende een lange time-to-market. Vanwege die redenen is er gekozen voor een Azure cloud omgeving. Hiermee kan de hele organisatie snel en efficiënt toegang krijgen tot de beschikbare data. Voor VGZ was het belangrijk dat het platform geschikt is voor zowel BI en data science, met daarnaast nog een focus op data governance.
Dashboarding
Een van de manieren om de getransformeerde data te gebruiken en daarmee waarde te creëren voor een bedrijf is het gebruik van een business intelligence tool. Het is belangrijk om een tool te kiezen die bij je wensen past. Bijvoorbeeld: Klipfolio, Simplicate, Tableau, Looker, etc. Een van de toolings waar wij enthousiast over zijn is Power BI. Power BI is een zelfservice tool waarbij mensen met verschillende achtergronden, zoals het management team en data analisten, gemakkelijk gebruik kunnen maken van hetzelfde dashboard. Microsoft (Power BI) is door Gartner uitgeroepen tot de beste visualisatie tool van dit moment. Power BI is een Microsoft tool met dezelfde interface als excel, waardoor deze tool goed toegankelijk is voor eindgebruikers.
Predictive analytics
Gartner geeft aan dat er 4 levels zijn van analytics. Bij visualisaties van data wordt er vaak gebruik gemaakt van descriptive analytics, waarbij er terug wordt gekeken naar gebeurtenissen uit het verleden. Een andere waardevolle analytics vorm is predictive analytics, waarbij er gekeken wordt naar de toekomst. Een ander belangrijk aandachtspunt tijdens de Big Data Expo was uiteraard machine learning, wat steeds toegankelijker wordt en veel waarde kan toevoegen voor je organisatie.
Machine learning en predictive analytics gaan hand in hand, waarbij voorspelmodellen worden toegepast. Veelvoorkomende voorspelmodellen zijn logistische regressies, beslisbomen en neurale netwerken. Vragen die je met behulp van predictive analytics kunt beantwoorden zijn bijvoorbeeld:
- Welke consument gaat welk product aanschaffen?
- Op welk moment gaat iemand zijn/haar abonnement stopzetten (churn)?
Op basis van historische data gaat men kijken wanneer gebeurtenissen in de toekomst plaats zullen vinden. Hiervoor is het opnieuw heel belangrijk dat het datalandschap gestructureerd is ingericht. Binnenkort meer over dit onderwerp met een use-case!
Doe de datascan
Wil je weten welk level van datavolwassenheid jouw organisatie heeft, en wat je moet doen om verder te groeien? Doe dan eerst onze datascan.
- ✔ Invullen kost enkele minuten
- ✔ Je krijgt per e-mail een gratis rapport met toelichting
- ✔ Binnen twee dagen weet je waar je staat