Et datawarehouse er et centralt lager af fakta og information, der indeholder historiske og kumulative data fra forskellige interne og eksterne systemer. Data warehousing består af en blanding af teknologier, der giver brugerne mulighed for at omdanne spredte, rå data til brugbar intelligens, få en enkelt version af sandheden og forbedre den overordnede beslutningsproces.
Det primære formål med et data warehouse er at lagre store mængder data til forespørgsler og analyser. Det letter analyse- og rapporteringsprocesser, der hjælper brugerne med at træffe datastøttede rutinemæssige og strategiske forretningsbeslutninger.
Data warehouse-arkitekturen
Et data warehouse består af flere komponenter. Data fra forskellige operationelle systemer udtrækkes, transformeres og indlæses i staging-området, hvor dataene gennemgår standardisering og profilering. I integrationslaget integreres de “rensede” data i en ensartet form og sendes til datawarehouset til lagring. Gennem analytisk behandling segmenteres dataene i delmængder og overføres til forskellige datamarts baseret på de oplysninger, som specifikke brugere har brug for til rapporteringsformål.
Forskellen mellem en database og et datawarehouse
Et datawarehouse bliver ofte forvekslet med en database. En database er i det væsentlige et transaktionssystem, der overvåger og opdaterer data i realtid og giver brugerne den seneste version af dataene. I modsætning hertil består et datawarehouse af aggregerede strukturerede data, der er udtrukket gennem ETL-processen (extract, transform and load). I modsætning til en database stammer data ikke fra et datawarehouse, men i stedet fra forskellige informations- og forvaltningssystemer.
Et datawarehouse-miljø består af en relationel database, en ETL-løsning, en OLAP-motor og et dataanalyseværktøj sammen med andre applikationer, der bruges til at indsamle data og levere nyttige indsigter til forretningsbrugere.
Vigtigheden af et datawarehouse
I organisationer er data spredt ud i en række interne og eksterne systemer, der indeholder oplysninger i forskellige formater, orienteringer og filtyper. Desuden har nogle af disse systemer lignende dataindhold, hvilket medfører overlapning, som kan medføre uoverensstemmelser i analyse- og rapporteringsprocesser.
Deltagerne har brug for nøjagtige, enkelt version af oplysninger uden redundans for at kunne måle forretningsfaktorer, markedsforhold, forbrugeradfærd og andre aspekter. Fra en komplet liste over virksomhedens kunder til det højeste antal salg i en måned med detaljer om transaktioner kan brugerne få oplysninger på alle niveauer.
Data warehousing er gearet til at producere komplette, veldefinerede rapporter, der sikrer en høj grad af nøjagtighed. Dette giver virksomhedsledere og analytikere mulighed for at bore ned i specifikke detaljer, som de måske ikke kan forstå gennem små bidder af oplysninger, der er gemt i individuelle databaser. Desuden hjælper det med at udføre data mining på aktuelle og historiske tendenser for at identificere vigtige mønstre og udvinde forståelige indsigter til prædiktive analyser.
Data warehouses øger ydeevnen for operationelle systemer og databaser, som er designet til at håndtere relativt mindre datamængder, ved at aflaste dem med hensyn til lagring og tilgængelighed. Generelt har organisationer millioner af optegnelser, der er akkumuleret over tid, og som kan være på terabytes eller petabytes i størrelse. Ved hjælp af et datawarehouse kan alle data nemt opbevares uden at belaste de enkelte systemer.
Endelig er det vigtigt at have et datawarehouse for at kunne udnytte styrken i business intelligence (BI). De data, der er blevet profileret, renset og kontrolleret med henblik på kvalitetssikring, føres ind i BI-værktøjer for at give analyser og visuel repræsentation af fakta og tal, så der kan træffes velbegrundede beslutninger. Desuden kan brugerne sammenligne data i bestemte tidsrammer for at foretage trendanalyser af forbrugermarkedet og industrien.