Insights & Data Blog

Insights & Data Blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

Het is makkelijker gezegd dan gedaan, hoe ontdek je dat iets mis is?

Categorie: BIM
Wie is de Mol is weer begonnen in het nieuwe TV-seizoen. Menigeen zit aan de buis gekluisterd om uit te vissen wie de mol is. Er worden hints gegeven in de uitzendingen, maar uiteindelijk is het erg lastig om uit te dokteren wie daadwerkelijk de mol is. In mijn vorige blog ben ik ingegaan op voorbeelden van data kwaliteits problemen en heb een aantal voorbeelden van gevolgen gegeven. Maar als je data kwaliteits problemen wilt gaan ontdekken moet je eigenlijk wel weten waar je naar op zoek bent.



Bij het verbeteren van data kwaliteit volg je een proces. In dit proces is de eerste fase  het ontdekken van data kwaliteitsproblemen. En dat klinkt makkelijker dan het eigenlijk is. Voor het ontdekken van data kwaliteits problemen kan je met behulp van data quality tools  verschillende data elementen ‘profilen’. Hiermee verkrijg je per veld snel inzicht in de inhoud van het veld en of die inhoud voldoet aan je verwachtingen en het veldtype dat is gedefinieerd in de database. Voorbeelden van informatie die je hierbij kan krijgen zijn:
  • Min/max waarde veld
  • Patroon van veld
  • Uniekheid van veld
Bijvoorbeeld: je hebt op het veld postcode van Nederlandse adressen een profiel gedraaid en de volgende zaken komen daaruit;
  • Minimale waarde 0000AA en maximale waarde 9999AA
  • Patroon kan zijn 9999XX of 9999  XX (Hierbij staat de 9 voor een cijfer en de X voor een letter)
 
Er komen hier een paar zaken aan het licht; het veld postcode bevat postcodes die in Nederland niet valide zijn (0000AA) en het patroon van een postcode is niet consistent in de tabel. Hierdoor  ontstaan een aantal vragen; Is dit correct? Welk patroon zou de postcode moeten hebben? Moet een postcode functioneel gezien valide zijn?
Om op deze vragen een antwoord te krijgen zal je de definitie van een veld erbij moeten pakken of deze moeten opstellen. Te samen met de definitie en business rules van de data kan je bepalen of iets correct is of niet. Wanneer je business rules wilt vaststellen zal je dit met de eigenaar van de gegevens moeten doen, de eigenaar van de data is over het algemeen iemand in de ‘business’.
 
Wanneer je de business rules en definities van het data element erbij pakt kan je aangeven wat goed en wat fout is. In bovenstaand voorbeeld zou het kunnen zijn dat de definitie is dat een postcode standaard het patroon van 9999 XX heeft. De bijbehorende business rule is dat de postcode een bestaande postcode moet zijn. Met behulp van deze informatie ben je dan in staat om te identificeren waar de regels en de data uit elkaar lopen. De mismatch kan je gaan oplossen in een volgende fase (daarover de volgende keer meer).
 
Er zijn ook gevallen waarbij de business rules van een data element niet voorhanden zijn. Echter in bovenstaand geval zou je vanuit een technisch oogpunt alleen controleren of het veld aan de definitie voldoet en kan je inhoudelijk geen uitspraak doen. In principe zou het zo moeten zijn dat elk data element een eigenaar heeft. De eigenaar is een afdeling/persoon aan de business kant van een organsatie. De data eigenaar zal functionele uitspraken moeten doen over het data element. In bovenstaande voorbeeld of de postcode een bestaande postcode moet zijn.
 
Het is heel erg van belang bij data kwaliteit dat het proces en zeker de identificatie van problemen iets is wat breed in een organisatie gedragen wordt. De eigenaar van de gegevens en de uitvoerende partij zullen overeenstemming moeten hebben over de kenmerken waar de data aan moet voldoen, de zgn. business rules. Wanneer er geen business rules zijn met betrekking tot data, zullen deze moeten worden opgesteld. Er kan anders immers geen uitspraak over de correctheid van gegevens worden gedaan!

Over de auteur

Elja Knol
Elja Knol
Als data management consultant met een passie voor data, heb ik binnen verschillende organisaties (profit/non-profit) een brede ervaring opgedaan op het gebied van data analyse en data kwaliteit.
2 Reacties Plaats een reactie
Hoi Elja, Leuke blog, een klein kijkje in de keuken van datakwaliteit. Vooral het volgende stukje is volgens mij vaak een probleem binnen organisaties (het ontbreken van een eigenaar dan): "De eigenaar is een afdeling/persoon aan de business kant van een organsatie. De data eigenaar zal functionele uitspraken moeten doen over het data element." Ik ben benieuwd naar je volgende blog :)
Hi. Only wanted to ask a quick issue. Now i am fkcfgggadddf

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.