Insights & Data Blog

Insights & Data Blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

Voorjaar: tijd voor de grote dataschoonmaak

Floor cleaning equipment machineBegin april 2014 publiceerde EMC², de bekende IT-leverancier, een rapport over Big Data. Daarin werd geconcludeerd dat slechts 22% van de opgeslagen gegevens nuttig is, en dat slechts 5% van die opgeslagen data wordt gebruikt. De vraag die ik me stelde, wat doen we met al die gegevens die niet nuttig zijn of niet gebruikt worden. Gewoon blijven bewaren?

Ieder jaar wordt er meer en meer data verzameld en opgeslagen. Deze stortvloed van gegevens moet in goede banen worden geleid. Omdat opslagcapaciteit geen probleem is, is het gemakkelijk om alle gegevens die binnenkomen gewoon maar ergens op te slaan. Maar opslag van gegevens is misschien technisch geen probleem, het vormt wel een kostenpost. Al dalen de prijzen van harde schijven dramatisch, het gecontroleerd beheren van al die opslag kost wel veel geld. Die goedkope harde schijven staan wel in een gekoelde computerruimte, er moeten backups van gemaakt worden, ze moeten vervangen worden en wat nog meer. In Amerika kost een petabyte ongeveer 4,5 miljoen dollars per jaar. Ook in de cloud is opslag goedkoop, maar niet gratis. En dan spreek ik nog niet eens over de problemen met datamigratie die er zijn wanneer van de ene cloudleverancier naar de andere wordt overgegaan. Moet dan ook al die ongebruikte en onnutte data worden meeverhuisd?

Al die onnutte data maakt wel dat uw systemen langzamer worden. Wanneer u naar bepaalde informatie zoekt, wordt ook alle onnutte gegevens doorzocht. En als de kwaliteit van deze gegevens niet goed is, wat is dan het risico dat deze gegevens wel uw rapportages en statistieken beïnvloeden?

Een probleem is dat u niet weet wat er eigenlijk staat in deze ongebruikte gegevens. Misschien staat er wel iets belangrijks in, of erger, er staat iets in wat u eigenlijk niet wilt hebben. Wat ik met het laatste bedoel: misschien staat er wel informatie in van opgestapte personeelsleden, die u allang had moeten verwijderen. Of privacygevoelige klantgegevens die gewoon op een algemeen toegankelijke plek staan. Gegevens, bijvoorbeeld documenten, die in de verkeerde 'kast' opgeslagen (gearchiveerd) zijn. Misschien niet zo erg als bij de Nederlandse Zorgautoriteit, maar kleinere incidenten kunnen ook bij uw organisatie gebeuren.

Het is altijd handig uw dataverzameling actueel, slank en correct te houden. Maar door de grote toevloed van gegevens kan dit wel eens een enorme taak worden. Zeker wanneer dat op de ouderwetse manier gebeurt. Door bijvoorbeeld uw medewerkers handmatig gegevens te selecteren op relevantie. Dat gaat tegenwoordig niet meer, er komt gewoon te veel binnen. Misschien denkt u, ik werk niet voor een telefoonmaatschappij die miljoenen belgegevens moet bijhouden. Ik werk niet voor een ziekenhuis waar diagnostische apparaten iedere keer megabytes aan gegevens uitspuwen. Maar als uw medewerkers en collega's klagen over een tekort aan schijfruimte, weer een grotere mailbox nodig hebben, uw databases groeien en daardoor langzamer worden… Dan komt ook voor u de wildgroei aan gegevens dichterbij.

Het voorkomen dat onnutte gegevens worden opgeslagen is een goede strategie. Alert zijn op privé-gebruik van netwerkschijven, het selecteren van e-mails voordat u ze archiveert, het zijn allemaal methoden die zeker nuttig en noodzakelijk zijn. Maar soms zit u voor het dilemma: hoe kan ik nu weten welke gegevens ik in de toekomst misschien nodig heb? Als ik nu te stringent aan het selecteren ben, misschien gooi ik wel iets belangrijks weg? Gegevens die nu ROT ('Redundant, Obsolete & Trivial') lijken, kunnen best in de toekomst actueel worden.

De methoden en systemen die Capgemini gebruikt werken als schoonmaakmachines. We doorzoeken de gegevens op hun ouderdom, gebruik en inhoud. Wanneer een document al vijf jaar niet gebruikt is, lees: geopend, is het dan nog wel actueel? En als dat document ook nog eens gaat over een klant waarmee u al vijf jaar geen relatie meer heeft, wat is dan het nut deze gegevens nog te bewaren. À propos bewaren, ik wil niet suggereren dat u gegevens die ROT lijken, direct maar rücksichtslos gaat verwijderen. U kunt er ook beslissen deze gegevens op een langzaam medium, of 'off-line', op te slaan. Zodat ze in ieder geval uw productiesystemen niet meer belasten. Wanneer ze dan weer lange tijd niet gebruikt worden, zouden ze opgeruimd kunnen worden.

Voor gestructureerde gegevens kunt u voor deze schoonmaakstrategie IBM Optim gebruiken. Minder gebruikte gegevens worden verplaatst naar een data-archief. Ze blijven toegankelijk maar vallen wel onder retentiemanagement. En als u wilt weten wat er nou allemaal staat op netwerkschijven, documentmanagementsystemen enz., is IBM's UDIM ('Unstructured Data Indentification Management') de oplossing om documenten op gebruik en inhoud te doorzoeken en te filteren. Om ze daarna op de goede plek te zetten of te verwijderen.

Vroeger werd in het voorjaar de grote schoonmaak gehouden: de kleden werden uitgeklopt en de bezem werd door het huis gehaald om de viezigheid van de winter op te ruimen. Nu is het tijd geworden om de ongebruikte of onnutte gegevens in uw informatiehuishouden op te ruimen. De schoonmaakmachines staan al klaar.

Photo: Wikimedia Commons, Creative Commons CC0 1.0 Universal Public Domain Dedication

Over de auteur

Reinoud Kaasschieter
Reinoud Kaasschieter

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.