ETL proces

Een van de focuspunten tijdens het programma was het inrichten van een goed datalandschap. Het grootste gedeelte van de tijd is een data specialist namelijk bezig met het prepareren van de data. Ook tijdens de Big Data Expo werd er uitgebreid stilgestaan bij dit onderwerp en uitgelicht hoe belangrijk het is om het datalandschap in orde te hebben, voordat er fancy visualisaties gemaakt kunnen worden of voorspelmodellen worden toegepast. Maar hoe werkt dit?

ETL staat voor Extract, Transform en Load. Extract is het proces waarbij data zonder bewerking ontsloten wordt vanuit verschillende bronsystemen. Vervolgens moet de data getransformeerd worden (Transform). Dit wordt ook wel ‘data cleaning’ genoemd – de data wordt gestructureerd op basis van feiten en dimensies. De uitkomst hiervan is een datamodel van de verschillende datasets op basis van gelijke sleutels. De laatste stap in dit proces is Load, waarin de getransformeerde data wordt gebruikt voor onder andere de volgende doeleinden: dashboarding, predictive analytics en data management.

Cloud migratie

Op het gebied van cloud migratie waren er ook enkele sprekers, waaronder Rutger de Graaf (Data Architect bij Randstad Groep Nederland). In de afgelopen jaren hebben zij een volledige transitie vanuit lokale serverparken naar serverless oplossingen in de cloud van Amazon Web Services. Services als Redshift, Mattilion, S3, EC2 en Lambda functies zijn besproken. Het serverless transformeren van data in de cloud, zoals Little Rocket dit nu ook voor diverse klanten doet, bevestigd dat we een goede weg inslaan met hypermoderne oplossingen.

Daarnaast hebben we een bijeenkomst van VGZ bijgewoond. VGZ gaf een lezing over hoe zij met behulp van een consultancy bureau een datagedreven organisatie zijn geworden. Het oude datalandschap had hoge data-opslagkosten en kende een lange time-to-market. Vanwege die redenen is er gekozen voor een Azure cloud omgeving. Hiermee kan de hele organisatie snel en efficiënt toegang krijgen tot de beschikbare data. Voor VGZ was het belangrijk dat het platform geschikt is voor zowel BI en data science, met daarnaast nog een focus op data governance.

Dashboarding

Een van de manieren om de getransformeerde data te gebruiken en daarmee waarde te creëren voor een bedrijf is het gebruik van een business intelligence tool. Het is belangrijk om een tool te kiezen die bij je wensen past. Bijvoorbeeld: Klipfolio, Simplicate, Tableau, Looker, etc. Een van de toolings waar wij enthousiast over zijn is Power BI. Power BI is een zelfservice tool waarbij mensen met verschillende achtergronden, zoals het management team en data analisten, gemakkelijk gebruik kunnen maken van hetzelfde dashboard. Microsoft (Power BI) is door Gartner uitgeroepen tot de beste visualisatie tool van dit moment. Power BI is een Microsoft tool met dezelfde interface als excel, waardoor deze tool goed toegankelijk is voor eindgebruikers.

Predictive analytics

Gartner geeft aan dat er 4 levels zijn van analytics. Bij visualisaties van data wordt er vaak gebruik gemaakt van descriptive analytics, waarbij er terug wordt gekeken naar gebeurtenissen uit het verleden. Een andere waardevolle analytics vorm is predictive analytics, waarbij er gekeken wordt naar de toekomst. Een ander belangrijk aandachtspunt tijdens de Big Data Expo was uiteraard machine learning, wat steeds toegankelijker wordt en veel waarde kan toevoegen voor je organisatie.

Machine learning en predictive analytics gaan hand in hand, waarbij voorspelmodellen worden toegepast. Veelvoorkomende voorspelmodellen zijn logistische regressies, beslisbomen en neurale netwerken. Vragen die je met behulp van predictive analytics kunt beantwoorden zijn bijvoorbeeld:

– Welke consument gaat welk product aanschaffen?
– Op welk moment gaat iemand zijn/haar abonnement stopzetten (churn)?

Op basis van historische data gaat men kijken wanneer gebeurtenissen in de toekomst plaats zullen vinden. Hiervoor is het opnieuw heel belangrijk dat het datalandschap gestructureerd is ingericht. Binnenkort meer over dit onderwerp met een use-case!

Wat zijn jouw data uitdagingen? Of wil je meer weten over bovenstaande mogelijkheden? Neem dan contact op.