Capgemini NL blog

Capgemini NL blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

Het Data Lake: een meer of een moeras?

Categorie: Insights & Data

Data Lakes zijn gebaseerd op een simpel idee: het schaalbaar opslaan en analyseren van gestructureerde en ongestructureerde data. Maar als je niet oppast, verandert je mooie schone meertje zomaar in een drassig moeras.

Helaas is de kans behoorlijk groot dat organisaties in dit moerassige stadium terecht zullen komen. In deze blog wordt uitgelegd wat de valkuilen zijn en hoe dit te voorkomen is.

Een Data moeras is een plek waar:

  • Je niet de specifieke data kan vinden die je zoekt
  • Je van geen enkel bestand of object de bron weet
  • Van een bestand of object meerdere kopieën bestaan
  • Het datakwaliteit niveau van een bestand of object onbekend is
  • Het vaak onpraktisch is om data van een heel scala aan bronnen te integreren

Wanneer het Data Lake in een Data Swamp verandert, wordt de schatkist aan potentiële ‘Insights’ waarmee de business haar voordeel kan doen, veel moeilijker om te raffineren.

Hoe kun je nu voorkomen dat er in je Data Lake niet meer gevist kan worden naar mooie vangsten?

De metafoor die je kunt hanteren is dat van een drinkwaterreservoir. In een drinkwaterreservoir wordt water onder controleerbare omstandigheden opgeslagen. Drinkwaterreservoirs worden geen moeras omdat het goed wordt onderhouden. Wat er ingaat en weer uitkomt wordt voortdurend gecontroleerd. Drinkwaterreservoirs zijn ontworpen om biologische en chemische besmettingen tot een minimum te beperken en als dit goed gebeurt, is het water zo schoon dat het als drinkwater gebruikt kan worden.

Dus als je een data swamp wilt vermijden dien je een Data Lake systematisch (lees: architectuur) op te zetten zodat het voortdurend wordt onderhouden (lees: toepassen van set of best practices).

Hoe worden Data Lakes meestal opgestart? Dit gebeurt in de meeste gevallen vanuit het idee dat “als we maar een opslagmedium hebben waar we alles in kunnen opslaan, dan zoeken we later wel uit hoe we dit het beste verder kunnen professionaliseren”. Maar wat gebeurt er in de praktijk vaak als een Data Lake beschikbaar komt? De gebruikers starten met het inladen van grote hoeveelheden data, meestal ongecoördineerd en ongecontroleerd, en voordat je het weet begint het Data Lake moerassige trekken te vertonen.

Een voorbeeld is het ‘delen van data’. Stel je voor dat je een kopie weet te bemachtigen van alle social media uitingen die relevant zijn omtrent de lancering van een nieuw product. Als deze sociale media uitingen zijn afgenomen van een leverancier dan wil je natuurlijk niet dat iemand anders via een andere leverancier dezelfde set aan data ook gaat opvragen en in het Data Lake gaat laden. Effectief data delen is een evident onderdeel van het schoon houden van je Data Lake.

Verder is het ook belangrijk voor gebruikers van het Data lake dat ze weten welke data ze erin kunnen vinden en of ze een inschatting kunnen maken of ze deze data kunnen inzetten voor het beoogde doel (lees: metadata). Om dit te bereiken is het van belang dat onder architectuur wordt gewerkt en dat best practices worden toegepast.

Architectuur

Zoals hierboven al is vermeld, is een belangrijke component van een Data Lake architectuur het management van metadata zodat het hergebruik van data wordt bijgehouden en gestimuleerd. Maar er zijn ook nog andere aspecten zoals:

Data indigestie: het moet simpel en efficiënt zijn om data van de bron naar het reservoir te brengen. Specifiek, maatwerk coding of scripting moet worden vermeden.

Traceerbaarheid data: In een Data Lake dien je te eisen dat een originele kopie van de data wordt opgeslagen voor audits, traceerbaarheid, reproduceerbaarheid en data science technieken.

Data transformering: Om data te prepareren voor analytics in het Enterprise Datawarehouse, is het transformeren van de data in het Data Lake vaak een zwaar proces. Het streven dient te zijn om transformaties toe te passen met een minimum aan zwaar maatwerk.

Data publicatie: De data digestie, data transformatie en metadata tagging dienen afgerond te zijn voordat data gepubliceerd kan worden.

Security: een Data Lake dient de toegang tot data objecten, bepaalde services (zoals HBase), specifieke applicaties en het Hadoop cluster te managen. Een goede security architectuur en strategie dienen toegepast te worden voor identificatie, autorisatie van gebruikers, toegang tot data, encryptie, anomisaties, logging en auditeerbaarheid.

Operatie en management: als een data lake volledig productioneel is, zullen meerdere simultane processen draaien die elk data indigesteren, transformeren en publiceren. Bovendien zullen ook processen draaien voor het consumeren van data via extracties en downloads richting big analytics omgevingen en het Enterprise DWH. Belangrijk is om load balancing en workload routing goed te monitoren en daar waar nodig proactief op te schalen.

Best Practices

In het proces van data indigestie, transformatie en publicatie is het van belang dat Best Practices worden toegepast om toekomstvast te blijven. Concreet gaat het om de volgende Best Practices:

  • het vastleggen van metadata in elke stap
  • het vastleggen van abnormaliteiten in elke stap van het proces
  • het inbouwen van datakwaliteit indicatoren
  • de data lake in je business intelligence architectuur plaatsen als complementair t.o.v. de Enterprise Datawarehouse
  • het ambassadeurschap vastleggen binnen de organisatie
  • de data lake governance inrichten; wie stopt de data erin, wie is ervoor verantwoordelijk, wie bepaalt het scala aan metadata tags die je eraan kan koppelen, etc.


Conclusie

Data Lakes zullen in de toekomst een standaard onderdeel worden in het applicatielandschap. Wanneer er met bovenstaande zaken rekening wordt gehouden zal er een goed fundament worden neergezet. En hiermee wordt ook voorkomen dat gebruikers na een aantal maanden of jaren een moeras krijgen in plaats van een schoon en te bevissen meer.

Bronnen:
http://www.martinsights.com/?p=1094
http://searchcio.techtarget.com/feature/Data-lake-governance-A-big-data-do-or-die
http://www.kdnuggets.com/2016/02/data-lakes-plumbers-operationalizing.html
https://datalakes.com/metadata-management-in-a-data-lake/

Over de auteur

Maarten van Eck
Maarten van Eck
Maarten van Eck is Senior BI Architect met 15 jaar ervaring in Business Intelligence. Hij schrijft regelmatig over de ontwikkelingen in zijn vakgebied.

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.