Insights & Data Blog

Insights & Data Blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

Het herkennen van waardevolle content

Van uitstel komt afstel….

Afgelopen weekend was het weer eens zover. Ik nam wat tijd om mijn foto archief eens op te schonen. Je kent het wel, je maakt foto’s tijdens de vakantie met je fotocamera, maar ook met je telefoon (werk of privé) en misschien doet zelfs je partner wel er aan mee. Al deze foto’s wil je bewaren, want stel je voor dat je iets mist. Nu heb ik iets ‘slims’ ingesteld op mijn mobiel, het automatisch synchroniseren naar Dropbox. Ieder filmpje of foto wordt door mijn telefoon geupload naar Dropbox. Uiteraard, enkel wanneer er een WiFi verbinding is… Eens in de zoveel tijd leeg ik deze vergaar bak en plaats deze content op de juiste locatie volgens mijn eigen bedachte structuur op mijn NAS. Zodoende kan ik altijd snel terugvinden wat ik zoek. Soms pas ik nog even de titel van een video bestand aan, om wat meer beschrijving er aan te geven.

Nu had ik dit enige tijd niet uitgevoerd en stond mijn NAS vol content van verschillende bronnen. Ik had content van Whatsapp die ik gekregen had; die ik verstuurd had; content die ik zelf gecreëerd had met mijn telefoon; content die we met onze spiegelreflex hadden geschoten; content die vanuit de gewone fotocamera kwam. En aan mijn de taak om deze 2500 items eens handmatig te gaan rangschikken.

Classificatie proces

Met mijn achtergrond in Content Management was het eerste wat ik deed, op zoek gaan naar een manier om te ontdubbelen. Als snel vond ik het programmaatje Visipics, dit programma kijkt niet alleen naar de metadata, maar ook naar de echte pixels van een foto en vergelijkt deze. Hierdoor wordt een verkleinde versie van een foto gezien als dubbele. Ha, daar vlogen de dubbele bestanden van mijn NAS. Het resultaat: nog 1700 bestanden die handmatig geclassificeerd moeten worden…
Vervolgens wordt het uitzoeken op basis van de datum waarop de foto genomen is, de metadata dus. Hierdoor kan ik sets van content samenvoegen en deze op de juiste locatie plaatsen in mijn folderstructuur.

Automatiseren

Je begrijpt, na enige uren zat het werk er op. Was ik voldaan hiermee? Wel nee! Als echte ECM-er frustreerde het mij enorm, dat ik dit proces niet kan automatiseren. Elke dag probeer ik klanten te overtuigen van de noodzaak voor autoclassificatie, maar zelf kan ik er niets van. Wat ik zou willen is een systeem waar ik alles in plaats en dat het systeem deze classificatie doet en metadata toekent. Is het niet helemaal 100% waterdicht, dan attendeert het systeem mij daar op zodat ik een laatste check kan doen. In de ideale situatie herkent het systeem ook de persoon op de foto en plaatst de documenten in de juiste context.
In de praktijk zijn er zeer weinig bedrijven die de dit proces ingericht hebben voor alle content stromingen. Daarom is men nog te veel afhankelijk van handmatige classificatie van content. Het gevaar is natuurlijk dat iets niet correct geclassificeerd is en het daardoor minder goed terug te vinden is. Veelal is de nadruk gelegd op een van de inkomende stromen en worden al dan niet automatisch de metadata kenmerken toegekend.

Classificatie

Tegenwoordig is de technologie echter zo ver dat er zelfs op basis van de inhoud van de content geclassificeerd kan worden.  Zelfs de metadata kan volautomatisch uit de content gelezen worden en toegekend aan het object in het opslag medium. Ja, zelfs voor video en audio is dit mogelijk! Er wordt een hogere mate van nauwkeurigheid behaalt als we dit overlaten aan systemen ten opzichte van handmatige classificatie door medewerkers. Daarnaast gaat het veel sneller en zorgt het er voor een hogere kwaliteit.
Voor mijn privé problematiek is deze techniek nog buiten mijn bereik, maar het bedrijfsleven heeft wel de middelen om deze tooling aan te schaffen en in te richten. Hiermee kunnen zij snel content classificeren en zodoende ook op zeer korte termijn bepalen of deze content waarde heeft voor de bedrijfsvoering. Dit is een essentieel startpunt voor projecten die Content Analytics of Data Cleanup als doel hebben. Zij moeten zich namelijk baseren op correct classificatie van deze content.
Voor mij geldt dat ik het voorlopig zal moeten doen met deels handmatige acties in een keten van classificatie acties voor mijn privé collectie. Ik hoop echter dat het bedrijfsleven inziet dat men enorme winst kan behalen als ze gebruik gaan maken van automatische classificatie.

Over de auteur

Patrick van der Horst
Patrick van der Horst
1 Reactie Plaats een reactie
herkenbaar en leuk artikel! Gelukkig zie ik vanuit Xillio steeds meer klanten automatische classificatie toepassen. Eigenlijk nu pas om 2 redenen: 1. De kwaliteit van automatische classificatie is nu pas echt goed en klanten vertrouwen het nu ook echt (alhoewel een pilot of plc altijd nodig is); 2. De prijs van automatische classificatie is door de gevestigde ECM leverancier enorm hoog en daardoor is de business case niet meer relevant. Nieuwkomers op deze markt, zoals Xillio, profiteren daar enorm van en garanderen tussen de 90 en 95 procent nauwkeurigheid. Echter bepalen de volgende 2 dimensies de kwaliteit: - kwaliteit van trainingset (voorbeeld documenten); - kwaliteit van het classificatie model (zou een mens het ook begrijpen). Ik voorspel dat classificatie en metadatering het onderwerp is voor ECM de komende 2 jaar. Dat zien we inmiddels ook gebeuren, iedere klant die het negeert laat veel inefficiency en onnodige kosten en complexiteit in leven.

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.