Insights & Data Blog

Insights & Data Blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

De transformatie van de 'oude' EDWH architectuur naar de 'nieuwe' wereld

In dit artikel dompelen we ons onder in de ‘nieuwe’ wereld van Big data en de ‘oude’ traditionele BI en datawarehouse wereld . Iedereen in ons vakgebied praat over Hadoop, Data lakes en de stelling wordt regelmatig geponeerd waarom we überhaupt een datawarehouse nodig hebben.

En er is geen tekort aan technologie !  Elke dag arriveren nieuwe technieken met mooie namen zoals Splunk, Hive, Pig en meer…

Maar hoe ontwerpen we nu een effectieve EDW/DWH architectuur om de ‘oude’ en ‘nieuwe’ wereld samen te brengen ?

Laten we eerst beginnen met de alom bekende architectuur voor normale gestructureerde data; de business intelligence en datawarehouse architectuur. De laatste tijd wordt regelmatig beargumenteerd dat Datawarehousing overbodig gaat worden in de toekomst. Ik volg liever de strategie om datgene te omarmen en verbeteren wat een ‘bewezen staat’ van dienst heeft

Als samenvatting, een moderne datawarehouse architectuur bestaat uit drie hoofdkarakteristieken :

 Gelaagde decompositie

 

 

Agile datamodellering

 

ETL automatie

De BI architectuur is over de laatste 10 jaar flink in volwassenheid gegroeid en zit nu in de fase van datawarehouse automatie. Dus waarom niet deze architectuur blijven gebruiken en uitbreiden met een Big Data pilaar.

Een hoop ‘Big Data’ experimenten neigen ertoe ‘reguliere data’ projecten te zijn met voorspellende modelleringstechnieken. Deze kunnen bovenop elke moderne BI architectuur plaatsvinden. Het grote verschil is de creatie van een ‘Grote’ Analytische database tabel die meer geavanceerde data preparatie gebruikt dan normaal het geval is. Data Mining tools werken normaliter op zo’n grote platte tabel om verbanden/correlaties te ontdekken in een brei van data.

 

Deze architectuur is robuust totdat echte ‘Big Data’ langs komt. Langs de assen Volume, Variëteit (gestructureerd en ongestructureerd) en Snelheid wijken partijen zoals Hadoop dermate af van de ‘oude’ wereld. Maar waarom kunnen we deze ‘nieuwe’ technieken niet ook gebruiken in de ‘Staging’ en ‘Register’ laag van deze  architectuur ?  Het ‘Data Lake’ wordt het ‘schema terwijl je leest’, equivalent aan het ‘ schema terwijl je schrijft’ Datavault principe.

Met deze kennis gaat het de architectuur er op de volgende manier uitzien:

 

Het toont niet alleen de BI en Big data architectuur in een complementaire manier, het toont ook de manier waarop BI dimensies (Masterdata) wordt gepresenteerd richting de analytische omgeving. Een interessant onderwerp hierin  is overigens, hoe structuur of patronen, wanneer deze worden gevonden in het ‘Lake’, kunnen worden teruggevoerd naar het Datavault. Dit is nu nog onvoldoende uitgekristalliseerd.

 

Samenvattend,  technologieën kunnen worden gepositioneerd in het domein van deze  architectuur waar ze meest effectief zijn. Ook data modelleringstechnieken kunnen worden gepositioneerd in de gewenste vlakken. Wanneer we inzoomen in de kern van deze architectuur en specifiek op data modellering dan zien we interessante herbruikbaarheid  en gelijksoortigheid terug. De vier vlakken lijken volledig en complementair genoeg om alle data, in welke vorm dan ook, op te slaan en te gebruiken voor Business Intelligence of Big data Analytics.

 

Bronnen:
http://biim.nl/2014/12/18/het-einde-van-het-enterprise-data-warehouse/
http://www.freefrogs.nl/expertises/bi-en-big-data-in-1-architectuur/

Over de auteur

Maarten van Eck
Maarten van Eck
Maarten van Eck is Senior BI Architect met 15 jaar ervaring in Business Intelligence. Hij schrijft regelmatig over de ontwikkelingen in zijn vakgebied.

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.