Optimalisering van datawarehouses met Hadoop

| Factsheet

Een nieuwe oplossing van Capgemini die in samenwerking met Informatica, Cloudera en Appfluent wordt geïmplementeerd, verbetert de waarde-kostenratio van data. Door meer waarde bij minder opslagkosten uit data te halen, kan er optimaal worden geprofiteerd van nieuwe technologieën voor big data.

De enorme, en alsmaar groter wordende, hoeveelheden data van vandaag de dag kunnen online systemen voor transactieverwerking (OLTP) verstoren en ervoor zorgen dat het aanmaken en verwerken van transacties niet langer efficiënt verloopt. Dit kan op zijn beurt leiden tot prestatieproblemen van datawarehouses (DWH) bij het doorzoeken van gegevens. Verder zullen de totale eigendomskosten (TCO) de pan uitrijzen omdat er upgrades voor de hardware van datawarehouses nodig zijn en de kosten van licenties zijn gebaseerd op volume. Vaak betalen organisaties voor het opslaan voor gegevens simpelweg omdat ze verwachten deze nodig te zullen hebben.

Om datawarehouses en OLTP-systemen kostenefficiënt te laten werken in deze nieuwe omgeving is een ingrijpende capaciteitstoename vereist. Ten eerste moeten organisaties hoeveelheden data verwerken waarvoor traditionele DWH-platformen (ongeacht of dit relationele databasemanagementsystemen (RDBM) of toepassingen zijn) nooit zijn ontworpen. Ten tweede moeten ze omgaan met zowel ongestructureerde als (semi)gestructureerde data.

Technologieën voor big data zoals Apache Hadoop blinken uit in het beheer van grote hoeveelheden ongestructureerde data. Deze data moeten voor analysedoeleinden echter worden samengevoegd met gestructureerde data. Nu technologieën voor big data en Apache Hadoop op steeds grotere schaal gebruikt worden, is het van wezenlijk belang dat deze nieuwe technologieën kunnen worden geïntegreerd met de bestaande verouderde DWH-platformen om het beste van twee werelden te krijgen.

In samenwerking met Informatica, Cloudera en Appfluent heeft Capgemini een geïntegreerde oplossing ontwikkeld met behulp waarvan OLTP-systemen en datawarehouses doeltreffend en kostenefficiënt hun primaire functies kunnen vervullen.