Datový sklad je centrální úložiště faktů a informací, které získává a uchovává historická a kumulativní data z různých interních a externích systémů. Datový sklad se skládá z kombinace technologií, které uživatelům umožňují transformovat rozptýlená, nezpracovaná data na využitelné informace, získat jedinou verzi pravdy a zlepšit celkový proces rozhodování.
Hlavním účelem datového skladu je ukládání obrovského množství dat pro dotazování a analýzy. Usnadňuje analytické a reportovací procesy, které uživatelům pomáhají přijímat rutinní a strategická obchodní rozhodnutí podložená daty.
Architektura datového skladu
Datový sklad se skládá z několika komponent. Data z různých provozních systémů se získávají, transformují a načítají do staging area, kde data procházejí standardizací a profilováním. V integrační vrstvě jsou „vyčištěná“ data integrována do jednotné podoby a odeslána do datového skladu k uložení. Prostřednictvím analytického zpracování jsou data segmentována na podmnožiny a převedena do různých datových skladů na základě požadovaných informací konkrétními uživateli pro účely reportingu.
Rozdíl mezi databází a datovým skladem
Datový sklad je často zaměňován s databází. Databáze je v podstatě transakční systém, který dohlíží na data a aktualizuje je v reálném čase a poskytuje uživatelům nejnovější verzi dat. Naproti tomu datový sklad se skládá z agregovaných strukturovaných dat získaných prostřednictvím procesu extrakce, transformace a načítání (ETL). Na rozdíl od databáze data v datovém skladu nevznikají, ale pocházejí z různých informačních a řídicích systémů.
Prostředí datového skladu se skládá z relační databáze, řešení ETL, stroje OLAP a nástroje pro analýzu dat spolu s dalšími aplikacemi, které slouží ke shromažďování dat a poskytování užitečných informací podnikovým uživatelům.
Důležitost datového skladu
V organizacích jsou data rozptýlena do různých interních a externích systémů, které obsahují informace v různých formátech, zaměřeních a typech souborů. Některé z těchto systémů navíc nesou podobný obsah dat, což způsobuje duplicitu, která může způsobit nekonzistenci v analytických a reportovacích procesech.
Odpovědní pracovníci vyžadují přesnou, jedinou verzi informací bez jakýchkoli redundancí, aby mohli posoudit obchodní faktory, podmínky na trhu, chování spotřebitelů a další aspekty. Uživatelé mohou získat informace na všech úrovních, od kompletního seznamu podnikových zákazníků až po nejvyšší počet prodejů za měsíc s podrobnostmi o transakcích.
Data warehousing je zaměřen na vytváření úplných, dobře definovaných zpráv, které zajišťují vysokou úroveň přesnosti. To umožňuje vedoucím pracovníkům podniků a analytikům proniknout do konkrétních detailů, které by možná nebyli schopni pochopit prostřednictvím kousků informací uložených v jednotlivých databázích. Kromě toho pomáhá provádět dolování dat z aktuálních a historických trendů pro identifikaci důležitých vzorců a získávání srozumitelných poznatků pro prediktivní analýzu.
Datové sklady zvyšují výkonnost provozních systémů a databází, které jsou navrženy pro zpracování relativně menšího množství dat, tím, že je zbavují zátěže spojené s jejich ukládáním a přístupností. Organizace mají obecně miliony záznamů nahromaděných v průběhu času, které mohou mít velikost terabajtů nebo petabajtů. S pomocí datového skladu lze všechna data snadno uložit, aniž by zatěžovala jednotlivé systémy.
Nakonec, mít datový sklad je nezbytné pro využití síly business intelligence (BI). Data, která byla vyprofilována, vyčištěna a zkontrolována z hlediska zajištění kvality, se vloží do nástrojů BI, které poskytují analytiku a vizuální zobrazení faktů a čísel pro přijímání dobře podložených rozhodnutí. Kromě toho mohou uživatelé porovnávat data v konkrétních časových úsecích a provádět analýzu trendů spotřebitelského trhu a průmyslu.
.