Insights & Data Blog

Insights & Data Blog

Meningen op deze blog weerspiegelen de opvattingen van de schrijver en niet per definitie die van de Capgemini Group

Inzichten uit content

Sinds een aantal weken heeft deze blog een nieuwe naam. De oude naam Business Information Management (BIM) Blog is gewijzigd in Insights & Data Blog. De reden hiervoor is dat de divisie BIM binnen Capgemini is opgevolgd door de global practice Insights & Data. Met de naam Insights & Data komt het belang van de snel groeiende mogelijkheden om inzichten uit data te genereren tot uitdrukking. Hierbij kan het gaan om allerlei soorten data, zowel gestructureerde data (data uit databases) als ongestructureerde data. Ongestructureerde data worden ook wel content genoemd, zoals in Enterprise Content Management (ECM).

Analyse van content
Om inzichten uit content te verkrijgen kan gebruik worden gemaakt van speciale software waarmee de content kan worden geanalyseerd. AIIM, de internationale vakorganisatie voor ECM, gebruikt voor dit soort software de term content analytics en definieert dit als “a range of search and reporting technologies which can provide similar levels of business intelligence and strategic value across unstructured data to that conventionally associated with structured data reporting.” De meeste software voor content analytics richt zich op de analyse van geschreven tekst, zoals in documenten, e-mails en Twitterberichten. Dit soort software wordt aangeduid als software voor text analytics of text mining. Deze software kan informatie uit tekst omzetten in gestructureerde data die vervolgens met technieken voor Business Intelligence (BI) kunnen worden geanalyseerd, waarna de daarbij verkregen resultaten in grafiekvorm kunnen worden gepresenteerd.

De analyse van een grote verzameling teksten kan er als volgt uitzien. Allereerst zal de software de te analyseren teksten uit de betrokken systemen of opslaglocaties bijeenbrengen: deze verzameling wordt een corpus genoemd. Vervolgens zal de software de tekst in het corpus grammaticaal ontleden, waarbij zelfstandige naamwoorden, bijvoeglijke naamwoorden, werkwoorden enz. worden geïdentificeerd. Daarna kan de tekst inhoudelijk worden geanalyseerd. De gebruiker kan de software bijvoorbeeld laten berekenen in hoeveel documenten bepaalde termen voorkomen (frequentie) en hoe vaak in deze documenten bepaalde termen in combinatie met bepaalde andere termen voorkomen (correlatie). Door de analyse van het corpus kunnen trends, afwijkingen en verbanden worden ontdekt. Bij deze analyse kan de software gebruikmaken van gespecialiseerde woordenboeken (dictionaries) op een bepaald kennisgebied (bijv. geneeskunde, chemie of de auto-industrie).

In een grote verzameling formulieren met klachten over auto’s kan bijvoorbeeld worden bepaald in hoeveel formulieren welke automerken worden genoemd. Vervolgens kan worden bepaald in hoeveel formulieren een bepaald automerk wordt genoemd in combinatie met een bepaald onderdeel van een auto, zoals de motor. Daarna kan weer worden bepaald welke term relatief vaak voorkomt in combinatie met de term ‘motor’. Tenslotte kan dan als uitkomst van de analyse naar voren komen dat een bepaalde motorolie bij auto’s van een bepaald automerk vaak tot storingen leidt. Door een dergelijke analyse van klachten met content analytics kan de autofabrikant vroegtijdig signalen over problemen met auto’s verzamelen en beoordelen. Op basis hiervan kan hij de juiste maatregelen nemen om de geconstateerde gebreken te verhelpen of te voorkomen.

Hoewel de software in dit soort situaties verbanden zichtbaar kan maken moeten de uitkomsten van de analyse altijd door een mens worden geïnterpreteerd. Alleen een mens kan namelijk de betekenis inschatten van de verbanden die worden gevonden. Maar de resultaten van de analyse kunnen door een juiste interpretatie diepgaande en bruikbare inzichten opleveren.

Toepassingen
Content analytics of text analytics kan worden gebruikt wanneer grote hoeveelheden tekst of grote aantallen documenten moeten worden verwerkt of geanalyseerd. Voorbeelden van toepassingen zijn:
  • Het inventariseren van de mate van klanttevredenheid door analyse van commentaar van klanten in e-mails, blogs en berichten op Facebook en Twitter.
  • Het opsporen van fraude in verzekeringsclaims door het in kaart brengen van verdachte patronen en trends.
  • Het inventariseren van de meest geschikte behandelingen voor ziektes door het analyseren van medische dossiers.
  • Het maken van samenvattingen van strafdossiers door de relevante informatie daaruit te selecteren.
  • Het automatisch ordenen van documenten in de categorieën van een classificatieschema.
In al deze toepassingen gaat het erom dat er tijdwinst wordt geboekt, omdat de software de activiteiten veel sneller kan uitvoeren dan een mens. Verder kunnen met de software verbanden worden ontdekt die een mens mogelijk over het hoofd ziet.

Verdere ontwikkelingen
De mogelijkheden van content analytics kunnen worden gecombineerd met andere software en andere technieken voor de analyse van data. IBM doet dit bijvoorbeeld in IBM Watson. Dit is een geavanceerd cognitief systeem dat natuurlijke taal kan verwerken, hypotheses kan genereren en evalueren en zelf kan leren van resultaten bij elke interactie die met het systeem wordt uitgevoerd. Een mooi voorbeeld van de mogelijkheden om door automatische analyse van tekst inzichten te genereren is de Personality Insights service van IBM Watson. Op basis van de tekst die een auteur bijvoorbeeld op een blog site heeft geschreven genereert de software een beeld van de persoonskenmerken van deze auteur. Dit zou leveranciers kunnen helpen klanten beter te begrijpen en op een meer persoonlijk niveau met hen te communiceren. Een demo van de Personality Insights service is hier te vinden.

Content analytics is een van de meest veelbelovende technieken op het gebied van ECM. Het potentieel van content analytics wordt in de praktijk helaas nog niet ten volle benut. Een van de oorzaken hiervoor is dat er specialistische kennis nodig is om content analytics toe te passen. Naarmate het gebruik van content analytics eenvoudiger zal worden en content analytics met andere technieken wordt gecombineerd zal er van content analytics steeds meer gebruik worden gemaakt. Content analytics zal in de toekomst dan ook zeker veel gaan bijdragen aan het verkrijgen van inzichten uit data.

Over de auteur

Sjef Philippi
Sjef Philippi
Als ECM consultant help ik klanten om hun digitaal document- en archiefbeheer te optimaliseren. Ik heb jarenlange ervaring in de overheidssector en daarbuiten en ruime kennis van de archiefwetgeving en de belangrijkste ECM-pakketten. Daarmee kan ik een brug slaan tussen de behoeften die klanten hebben en de steeds verder toenemende mogelijkheden die ECM-oplossingen bieden.

Plaats een reactie

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *.