Ett datalager är ett centralt förvaringsutrymme för fakta och information där historiska och kumulativa data från olika interna och externa system hämtas och bevaras. Datalagret består av en blandning av teknik som gör det möjligt för användare att omvandla utspridda, obearbetade data till användbar intelligens, få en enda version av sanningen och förbättra den övergripande beslutsprocessen.
Det huvudsakliga syftet med ett datalagret är att lagra enorma datamängder för förfrågningar och analyser. Det underlättar analys- och rapporteringsprocesser som hjälper användarna att fatta datastödda rutinmässiga och strategiska affärsbeslut.
Arkitekturen för datalagret
Ett datalagret består av flera komponenter. Data från olika verksamhetssystem extraheras, omvandlas och laddas in i staging area, där data genomgår standardisering och profilering. I integrationslagret integreras de ”rensade” uppgifterna i en enhetlig form och skickas till datalagret för lagring. Genom analytisk bearbetning segmenteras data i delmängder och överförs till olika datamarkörer baserat på den information som krävs av specifika användare för rapporteringsändamål.
Skillnaden mellan en databas och ett datalager
Ett datalager förväxlas ofta med en databas. En databas, som i huvudsak är ett transaktionssystem, övervakar och uppdaterar data i realtid och ger användarna den senaste versionen av data. Däremot består ett datalager av aggregerade strukturerade data som extraherats genom ETL-processen (extract, transform and load). Till skillnad från en databas har data inte sitt ursprung i ett datalager, utan kommer från olika informations- och hanteringssystem.
En datalagermiljö består av en relationsdatabas, en ETL-lösning, en OLAP-motor och ett dataanalysverktyg, tillsammans med andra tillämpningar som används för att samla in data och leverera användbara insikter till affärsanvändare.
Vikten av ett datalager
I organisationer sprids data till en mängd olika interna och externa system som innehåller information i olika format, inriktningar och filtyper. Dessutom har vissa av dessa system liknande datainnehåll, vilket orsakar dubbelarbete som kan leda till inkonsekvenser i analys- och rapporteringsprocesser.
Beslutsfattare behöver en korrekt, enda version av information utan redundans för att kunna mäta affärsfaktorer, marknadsförhållanden, konsumentbeteenden och andra aspekter. Från en fullständig lista över företagets kunder till det högsta antalet försäljningar under en månad med uppgifter om transaktioner kan användarna få information på alla nivåer.
Data warehousing är inriktat på att producera kompletta, väldefinierade rapporter som säkerställer en hög grad av noggrannhet. Detta gör det möjligt för företagsledare och analytiker att gå in på specifika detaljer som de kanske inte kan förstå med hjälp av bitvis information som lagras i enskilda databaser. Dessutom hjälper det till att utföra datautvinning av aktuella och historiska trender för att identifiera viktiga mönster och utvinna begripliga insikter för prediktiv analys.
Data warehouses ökar prestandan hos operativa system och databaser, som är utformade för att hantera relativt mindre datamängder, genom att avlasta dem från lagrings- och tillgänglighetsbelastningen. I allmänhet har organisationer miljontals poster som ackumulerats över tid och som kan vara terabyte eller petabyte stora. Med hjälp av ett datalager kan alla data enkelt lagras utan att belasta enskilda system.
För att kunna utnyttja kraften i Business Intelligence (BI) är det viktigt att ha ett datalager. De data som har profilerats, rensats och kontrollerats för kvalitetssäkring matas in i BI-verktyg för att ge analyser och visuell representation av fakta och siffror för att fatta välgrundade beslut. Dessutom kan användarna jämföra data inom specifika tidsramar för att utföra trendanalyser av konsumentmarknaden och industrin.