Een data warehouse is een centrale opslagplaats van feiten en informatie die historische en cumulatieve gegevens uit verschillende interne en externe systemen verzamelt en onderhoudt. Data warehousing bestaat uit een mix van technologieën die gebruikers in staat stellen verspreide, ruwe gegevens om te zetten in bruikbare informatie, één enkele versie van de waarheid te verkrijgen en het algehele besluitvormingsproces te verbeteren.
Het belangrijkste doel van een data warehouse is het opslaan van enorme hoeveelheden gegevens voor query’s en analyses. Het vergemakkelijkt analytische en rapportageprocessen die gebruikers helpen routinematige en strategische zakelijke beslissingen te nemen op basis van gegevens.
De datawarehouse-architectuur
Een datawarehouse bestaat uit verschillende componenten. Gegevens uit verschillende operationele systemen worden geëxtraheerd, getransformeerd en geladen in de staging area, waar de gegevens worden gestandaardiseerd en geprofileerd. In de integratielaag worden de “opgeschoonde” gegevens geïntegreerd in een uniforme vorm en naar het data warehouse gestuurd voor opslag. Door middel van analytische verwerking worden de gegevens gesegmenteerd in subsets en overgebracht naar verschillende data marts op basis van de informatie die specifieke gebruikers nodig hebben voor rapportagedoeleinden.
Verschil tussen een database en een data warehouse
Een data warehouse wordt vaak verward met een database. Een database, in wezen een transactiesysteem, overziet en actualiseert gegevens in real time en voorziet gebruikers van de meest recente versie van de gegevens. Een data warehouse daarentegen bestaat uit geaggregeerde gestructureerde gegevens die worden geëxtraheerd via het extract, transform, en load (ETL) proces. In tegenstelling tot een database komen gegevens niet uit een datawarehouse, maar uit verschillende informatie- en beheersystemen.
Een datawarehouse-omgeving bestaat uit een relationele database, een ETL-oplossing, een OLAP-engine en een data-analysetool, samen met andere toepassingen die worden gebruikt om gegevens te verzamelen en nuttige inzichten te bieden aan zakelijke gebruikers.
Het belang van een data warehouse
In organisaties zijn gegevens verspreid over een verscheidenheid aan interne en externe systemen die informatie bevatten in verschillende formaten, oriëntaties en bestandstypen. Bovendien bevatten sommige van deze systemen vergelijkbare gegevens, waardoor doublures ontstaan die kunnen leiden tot inconsistenties in analyses en rapportageprocessen.
Besluitvormers hebben nauwkeurige, enkelvoudige informatie nodig zonder redundanties om bedrijfsfactoren, marktomstandigheden, consumentengedrag en andere aspecten te peilen. Van een volledige lijst van zakelijke klanten tot het hoogste aantal verkopen in een maand met details van transacties, kunnen gebruikers informatie verkrijgen op alle niveaus.
Data warehousing is gericht op het produceren van volledige, goed gedefinieerde rapporten die een hoge mate van nauwkeurigheid garanderen. Dit stelt bedrijfsleiders en analisten in staat om door te dringen tot specifieke details die zij misschien niet kunnen begrijpen door middel van stukjes en beetjes informatie die zijn opgeslagen in afzonderlijke databases. Bovendien helpt het bij het uitvoeren van datamining op huidige en historische trends voor het identificeren van belangrijke patronen en het extraheren van begrijpelijke inzichten voor voorspellende analyses.
Data warehouses verhogen de prestaties van operationele systemen en databases, die zijn ontworpen om relatief kleinere hoeveelheden gegevens te verwerken, door de last van opslag en toegankelijkheid van hen af te nemen. Over het algemeen hebben organisaties miljoenen records die in de loop van de tijd zijn verzameld en die terabytes of petabytes groot kunnen zijn. Met behulp van een data warehouse kunnen alle gegevens gemakkelijk worden opgeslagen zonder de afzonderlijke systemen te belasten.
Ten slotte is het hebben van een data warehouse essentieel om de kracht van business intelligence (BI) aan te boren. De gegevens, die zijn geprofileerd, opgeschoond en gecontroleerd op kwaliteitsborging, worden ingevoerd in BI-tools om analyses en visuele weergave van feiten en cijfers te bieden voor het nemen van goed onderbouwde beslissingen. Bovendien kunnen gebruikers gegevens in specifieke tijdsbestekken vergelijken om trendanalyses van de consumentenmarkt en de industrie uit te voeren.