个性化阅读
专注于IT技术分析

数据仓库设计

本文概述

数据仓库是单个数据存储库, 其中集成了来自多个数据源的记录以进行在线业务分析处理(OLAP)。这意味着数据仓库需要满足整个组织内所有业务阶段的需求。因此, 数据仓库设计是一个非常复杂, 冗长且因此容易出错的过程。此外, 业务分析功能会随着时间而变化, 从而导致系统需求发生变化。因此, 数据仓库和OLAP系统是动态的, 并且设计过程是连续的。

数据仓库设计采用的方法不同于行业中的视图实现。它将数据仓库视为具有特殊需求(例如回答与管理相关的查询)的数据库系统。设计的目标变成了如何提取, 转换和加载来自多个数据源的记录(ETL), 以将其作为数据仓库存储在数据库中。

有两种方法

  1. “自上而下的方法
  2. “自下而上”的方法

自上而下的设计方法

在“自上而下”的设计方法中, 数据仓库被描述为面向主题, 时变, 非易失性和集成的数据存储库, 用于验证, 重新格式化来自不同来源的整个企业数据并将其保存在规范化的(最多3NF)的数据库作为数据仓库。数据仓库存储“原子”信息, 即最低粒度的数据, 可以通过选择特定业务主题或特定部门所需的数据从中构建维度数据集市。一种方法是一种数据驱动的方法, 首先收集和集成信息, 然后制定主题以建立数据集市的业务需求。此方法的优点是它支持单个集成数据源。因此, 由它们构建的数据集市在重叠时将具有一致性。

自上而下设计的优势

数据市场从数据仓库中加载。

从数据仓库开发新的数据集市非常容易。

自上而下设计的缺点

这种技术对于不断变化的部门需求不灵活。

实施该项目的成本很高。

数据仓库设计

自下而上的设计方法

在“自下而上”方法中, 数据仓库被描述为“用于查询和分析的交易数据特定体系结构的副本”, 即星型模式。在这种方法中, 首先创建数据集市, 以获取针对特定业务流程(或主题)的必要报告和分析功能。因此, 与Inmon的数据驱动方法相比, 它需要成为一种业务驱动方法。

数据集市包括最少的谷物数据, 如果需要, 还包括汇总数据。代替数据仓库的规范化数据库, 非规范化维度数据库适用于满足数据仓库的数据交付要求。使用此方法, 要使用一组数据集市作为企业数据仓库, 应在构建数据集市时牢记一致的尺寸, 定义普通对象在不同数据集市中的表示方式相同。一致的维度将数据集市连接到一个数据仓库, 通常称为虚拟数据仓库。

“自下而上”设计方法的优点是它具有快速的投资回报率, 因为开发数据集市(一个主题的数据仓库)比开发企业范围的数据仓库所需的时间和精力要少得多。而且, 失败的风险更低。此方法本质上是增量的。这种方法使项目团队可以学习和成长。

数据仓库设计

自底向上设计的优势

文档可以快速生成。

可以扩展数据仓库以容纳新的业务部门。

它只是在开发新的数据集市, 然后与其他数据集市集成。

自底向上设计的缺点

在自下而上的方法设计中, 数据仓库和数据集市的位置是相反的。

自上而下的设计方法与自下而上的设计方法之间的区别

自上而下的设计方法 自下而上的设计方法
将巨大的问题分解为较小的子问题。 解决基本的低级问题并将其集成到更高的级别。
固有的架构-不是多个数据集市的结合。 天生的增量;可以先安排基本数据集市。
有关内容信息的单一中央存储。 部门信息已存储。
集中的规则和控制。 部门规则和控制。
它包括冗余信息。 可以删除冗余。
如果重复执行, 可能会看到快速的结果。 更少的失败风险, 有利的投资回报率和技术证明。

赞(1)
未经允许不得转载:srcmini » 数据仓库设计

评论 抢沙发

评论前必须登录!