データウェアハウスとは、さまざまな社内外のシステムから履歴データや累積データを入手し、維持する事実と情報の中央保管庫のことです。 データウェアハウスは、ユーザーが散在する生のデータを実用的なインテリジェンスに変換し、真実の単一バージョンを取得し、全体的な意思決定プロセスを改善できるようにする技術の組み合わせで構成されています。
データウェアハウスアーキテクチャ
データウェアハウスは、いくつかのコンポーネントから構成されています。 異なる運用システムからデータを抽出し、変換し、ステージング・エリアにロードし、そこでデータの標準化およびプロファイリングを行います。 統合層では、「浄化された」データが統一された形に統合され、データウェアハウスに送信されて保存される。 分析処理により、データはサブセットに分割され、レポート作成のために特定のユーザーが必要とする情報に基づいて、さまざまなデータマートに転送されます。 基本的にトランザクション・システムであるデータベースは、データをリアルタイムで監視および更新し、ユーザーに最新バージョンのデータを提供します。 これに対し、データウェアハウスは、抽出、変換、ロード(ETL)プロセスを通じて抽出された構造化されたデータの集合体で構成されています。 データベースとは異なり、データはデータウェアハウスで生成されるのではなく、さまざまな情報および管理システムから取得されます。
データウェアハウス環境は、リレーショナル データベース、ETL ソリューション、OLAP エンジン、データ分析ツール、およびデータを収集しビジネス ユーザーに有用な洞察を提供するためのその他のアプリケーションで構成されます。
データウェアハウスの重要性
組織では、データはさまざまな形式、方向、およびファイル タイプの情報を含む内部および外部のシステムに分散しています。 さらに、これらのシステムの中には、類似したデータ内容を格納しているものもあり、分析や報告プロセスにおいて矛盾を引き起こす可能性のある重複が発生しています。
意思決定者は、ビジネス要因、市場の状況、消費者の行動、その他の側面を測定するために、重複のない正確で単一のバージョンの情報を必要とします。 企業顧客の完全なリストから、トランザクションの詳細を含む月の最高売上高まで、ユーザーはあらゆるレベルの情報を取得することができます。 これにより、ビジネスリーダーやアナリストは、個々のデータベースに格納されている情報の断片では理解できないような特定の詳細まで掘り下げることができます。 さらに、重要なパターンを特定し、予測分析のためのわかりやすい洞察を抽出するために、現在および過去の傾向についてデータマイニングを行うのに役立ちます。
データウェアハウスは、比較的少量のデータを扱うように設計されている運用システムやデータベースから、ストレージやアクセス性の負荷を取り除くことにより、それらの性能を向上させます。 一般に、組織には長期間にわたって蓄積された数百万のレコードがあり、そのサイズはテラバイトまたはペタバイトになることがあります。 データウェアハウスを使用すれば、個々のシステムに負担をかけることなく、すべてのデータを簡単に保存することができます。
最後に、データウェアハウスはビジネス インテリジェンス (BI) の力を活用するために不可欠です。 プロファイリング、クレンジング、および品質保証のためのチェックが行われたデータは、BI ツールに供給され、根拠ある決定を行うための分析および事実と数値の視覚的表現を提供します。 さらに、ユーザーは特定の時間枠でデータを比較し、消費者市場や業界のトレンド分析を行うことができます。