Insights & Data Blog

Insights & Data Blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

Schoffelen of met wortel en al?

Categorieën: BIMBusiness value
We hebben heerlijk weer achter de rug, daardoor ben ik weer veel buiten geweest. De natuur loopt voor op schema en dat is ook te zien in mijn tuin. Langzaam zie ik steeds meer onkruid opkomen in mijn tuin. Doordat het onkruid nu nog erg klein en laag in aantal is ben ik goed in staat om te beoordelen of ik het eruit moet trekken of niet. Waar komt het onkruid vandaan? Groeit de tuin van mijn buren vol en krijg ik daar gratis het een en ander van over, ontstaat het door de wind die allerlei zaden verspreid of had ik in de winter niet de zonnebloemzaadjes moeten voeren aan de vogels??....
 
Met data kwaliteit ligt het niet veel anders. In mijn vorige blog heb ik gesproken over de identificatie van data kwaliteit problemen. Na de identificatie ben je in staat om de problemen op te lossen. Dan zijn er een paar opties om de problemen aan te pakken;
  • Binnen de gegevensset waar jij je op richt ga je de gegevens opschonen, echter je pakt de bron niet aan, waardoor fouten in je gegevensset blijven komen.  Dit zou je kunnen vergelijken met het “schoffelen” in de tuin.
  • Van de gegevens binnen de gegevensset die vervuild is ga je onderzoeken wat de herkomst is en uitzoeken wanneer en hoe de vervuiling is ontstaan en het probleem bij de kern aanpakken. Deze optie kan je ook omschrijven als “het onkruid met wortel en al eruit trekken”;
 
Persoonlijk heb ik de voorkeur voor de tweede optie. Bij de eerste optie heb ik zelf altijd  het idee dat het dweilen met de kraan open is. Het onkruid is altijd latent aanwezig en het kan zo weer wortel schieten. In een database is het heel eenvoudig bij een update van de brongegevens dat de door jou geschoonde gegevens weer vervuild raken.


 
Bij het op zoek gaan naar de oorzaak van de vervuiling kan het voorkomen dat je allerlei soorten oorzaken aantreft. Voorbeelden van oorzaken die ik zelf ben tegengekomen:
  • “We willen de consument niet te veel belasten. Na 3 keer is het gewoon mogelijk om met foutieve adresgegevens in de database te komen.” Deze strategie werd toegepast bij een online adresformulier;
  • Een geboortedatum is verplicht, maar soms is deze onbekend of wordt het jaartal vergeten. Daardoor wordt de default waarde opgeslagen en zijn er veel personen in de database geboren op 01-01-1900.;
  • Potentieel nieuwe klanten komen van een externe partij. De externe partij levert de gegevens niet op volgens jouw data regels.
 
Zoals je kan zien is het niet altijd eenduidig wat de oorzaak van de vervuiling is. Soms is het een business beslissing en soms wordt het niet afgedwongen in de applicatie waar de gegevens worden ingevoerd. Soms komen de gegevens van externe partijen en zijn de afspraken die daarmee gemaakt zijn niet volledig.
Mijns inziens zul je data kwaliteit problemen bij de bron moeten aanpakken, wanneer dit mogelijk is. Dit voorkomt een hoop problemen in een gegevensset. Datzelfde zie je in mijn tuin; ik schoffel niet in de tuin, maar trek regelmatig mijn onkruid met wortel en al eruit. En ook al verstrijkt de tijd, er komt nooit zoveel onkruid terug als wanneer ik het had geschoffeld.

Over de auteur

Elja Knol
Elja Knol
Als data management consultant met een passie voor data, heb ik binnen verschillende organisaties (profit/non-profit) een brede ervaring opgedaan op het gebied van data analyse en data kwaliteit.

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.