Insights & Data Blog

Insights & Data Blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

Big Data: gooi toch wat weg!

Big Data is voor veel organisaties een punt waar op dit moment veel over wordt nagedacht; in sommige gevallen wordt er ook al mee gewerkt. Analyses op Big Data van organisaties kan onder andere bedrijfsinformatie transparant maken en besluitvorming ondersteunen.

Onderzoek en ervaring heeft uitgewezen dat in sommige gevallen tot wel 69% van uw data niet nuttig is. Data kan verouderen en voor een lange periode niet worden benaderd door een van uw medewerkers. In andere gevallen kan het bijvoorbeeld zo zijn dat personeel niet zakelijke audio of video-bestanden deelt of ‘tijdelijk’ opslaat op uw hardware voor later gebruik. Zou u voor de kosten moeten opdraaien voor het analyseren hiervan of überhaupt het beheer van de hardware die hiermee gemoeid is? Daarnaast is het zo dat er duplicaten rondzweven op uw netwerk. Documenten die uit een ECM systeem, waar auditing en versiebeheer heel krachtig zijn geïmplementeerd, zijn getrokken om ‘even’ rond te sturen voor review. In een project van 12 man of vrouw sterk, wil het dus zeggen dat een document elf keer wordt gekopieerd! Bij het gebruik van ECM systemen, of in iedere geval systemen waarin documenten kunnen komen te ontstaan of worden opgeslagen, kan een beleid op het gebied van dataretentie worden afgedwongen. Maar zodra documenten buiten deze systemen gaan leven wordt het al lastig, zo niet onmogelijk, om dataretentie af te dwingen.

Het verwijderen van data welke niet meer waardevol kan zijn voor de organisatie leidt tot kostenbesparingen en toename in efficiëntie.

Er zijn tal van andere scenario’s te bedenken waar data inmiddels nutteloos is geworden voor de organisatie. Het opschonen hiervan kan zorgen voor een enorme kostenreductie op het gebied van beheer en onderhoud van uw hardware. Harde schijf ruimte kost niet alleen geld op het moment van aanschaf, kosten worden pas echt gemaakt wanneer het in de lucht gehouden moet worden. Winst kan ook gezien worden op het gebied van werkefficientie. Is het niet veel prettiger voor uw medewerkers als ze tijdens het zoeken naar de laatste versie van een projectverslag niet eerst door tal van oude versies of niet relevante documenten moeten zoeken voordat ze komen bij het document dat ze een uur geleden nodig hadden? En boven alles, hoe weet u dat de 11 kopieën die u zojuist rondstuurde ter review over volgens het retentiebeleid over vijf jaar worden vernietigd?

Naast de drang om voordeel te halen uit Big Data, zijn er gelukkig ook dienstverleners die zich bezig houden met het opschonen van deze berg data. Door gebruik te maken van onder andere slimme algoritmes, zoekvragen, hashes en classificatie kan uw data snel in kaart worden gebracht. Met deze analyse in de hand kan u data vinden die bijvoorbeeld niet meer mag bestaan om juridische redenen of documenten met vertrouwelijke informatie op locaties waar ze niet horen en ook zoiets simpels als duplicaten van documenten.

Aan de hand van deze rapportages kan vervolgens besloten worden om deze data simpelweg te weg te gooien. De term defensible deletion wordt gebruikt voor het verwijderen van documenten gesteund door argumentatie waarom deze data verwijderd kan worden. Mocht het zo zijn dat er over een tijd een om een document wordt gevraagd welke niet meer bestaat, dan kan er in de rapportages teruggevonden worden waarom dit het geval is.

Ik zie het analyseren en opschonen van de Big Data als logische eerste stap, voordat bijvoorbeeld Content Analytics toegepast gaat worden. Het opschonen van data kan leiden tot ‘schonere’ resultaten, omdat ruis inmiddels verwijderd is. Daarnaast zal het analyseren van alle data sneller moeten gaan, er is immers minder data.

De wereld van defensible deletion is relatief nieuw voor mij en nu al kan ik het niet in één blogpost behandelen. To be continued lijkt mij…

Over de auteur

Dion Jansen
Dion Jansen

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.