本文概述
数据集市是导演信息存储的子集, 通常面向特定目的或主要数据主体, 可以将其分发以满足业务需求。数据集市是分析性记录存储, 旨在专注于组织内特定社区的特定业务功能。数据集市是从数据仓库中的数据子集派生的, 尽管在自下而上的数据仓库设计方法中, 数据仓库是从组织数据集市的联合创建的。
数据集市的基本用途是商业智能(BI)应用程序。 BI用于收集, 存储, 访问和分析记录。小型企业可以使用它来利用他们积累的数据, 因为它比实施数据仓库便宜。
创建数据集市的原因
- 由一组用户创建集体数据
- 轻松访问经常需要的数据
- 易于创造
- 缩短最终用户的响应时间
- 与实施完整的数据仓库相比, 成本更低
- 与全面的数据仓库相比, 潜在客户的定义更加清晰
- 它仅包含必要的业务数据, 并且不会混乱。
数据集市的类型
设计数据集市的方法主要有两种。这些方法是
- 相关数据3月
- 独立数据游行
相关数据3月
从属数据集市是较高数据仓库的物理子集的逻辑子集。根据此技术, 数据集市被视为数据仓库的子集。在该技术中, 首先创建数据仓库, 从中可以创建更多的各种数据集市。这些数据集市依赖于数据仓库并从中提取必要的记录。在这种技术中, 当数据仓库创建数据集市时;因此, 不需要数据集市集成。这也称为自顶向下方法。
独立数据游行
第二种方法是独立数据集市(IDM)。这里, 首先创建独立的数据集市, 然后使用这些独立的多个数据集市设计数据仓库。采用这种方法, 因为所有数据集市都是独立设计的;因此, 需要集成数据集市。由于集成了数据集市以开发数据仓库, 因此也称为自底向上方法。
除了这两类之外, 还存在一种称为“混合数据集市”的类型。
混合数据三月
它使我们能够合并来自数据仓库以外的其他来源的输入。这在许多情况下可能会有所帮助;特别是在需要Adhoc集成时, 例如在将新的组或产品添加到组织中之后。
实施数据集市的步骤
实施数据集市的重要步骤是设计架构, 构建物理存储, 使用源系统中的数据填充数据集市, 对其进行访问以做出明智的决策并随时间进行管理。因此, 步骤如下:
设计中
设计步骤是数据集市过程中的第一步。此阶段涵盖所有功能, 从启动对数据集市的请求到收集有关需求的数据以及开发数据集市的逻辑和物理设计。
它涉及以下任务:
- 收集业务和技术要求
- 识别数据源
- 选择适当的数据子集
- 设计数据集市的逻辑和物理体系结构。
建造中
此步骤包含创建与数据集市关联的物理数据库和逻辑结构, 以提供对数据的快速有效访问。
它涉及以下任务:
- 创建物理数据库和逻辑结构, 例如与数据集市关联的表空间。
- 创建表和索引之类的架构对象将在设计步骤中进行描述。
- 确定如何最好地设置表和访问结构。
填充
此步骤包括与从源获取数据, 清理数据, 将其修改为正确的格式和详细程度并将其移入数据集市有关的所有任务。
它涉及以下任务:
- 将数据源映射到目标数据源
- 提取数据
- 清理和转换信息。
- 将数据加载到数据集市
- 创建和存储元数据
存取中
此步骤涉及使用数据:查询数据, 分析数据, 创建报告, 图表和图形并发布它们。
它涉及以下任务:
- 设置和中间层(Meta层)供前端工具使用。该层将数据库操作和对象名称转换为业务条件, 以便最终客户端可以使用与业务功能相关的单词与数据集市进行交互。
- 设置和管理数据库架构(例如汇总表), 以帮助查询通过前端工具达成一致, 从而快速有效地执行。
管理
此步骤包含在数据集市的整个生命周期内对其进行管理。在此步骤中, 管理功能的执行方式如下:
- 提供对数据的安全访问。
- 管理数据的增长。
- 优化系统以获得更好的性能。
- 确保具有系统故障的数据事件的可用性。
数据仓库和数据集市之间的区别
数据仓库 | 数据库 |
---|---|
数据仓库是从公司内各个组织或部门收集的巨大信息仓库。 | 数据集市是数据仓库的唯一子类型。它是满足特定用户组要求的体系结构。 |
它可能包含多个主题领域。 | 它仅包含一个主题领域。例如, 财务或销售。 |
它包含非常详细的信息。 | 它可能包含更多汇总数据。 |
致力于整合所有数据源 | 它专注于集成来自给定主题领域或一组源系统的数据。 |
在数据仓库中, 使用事实星座。 | 在数据集市中, 使用星型模式和雪花模式。 |
它是一个集中式系统。这是一个分散的系统。 | |
数据仓库是面向数据的。 | Data Marts是面向项目的。 |
评论前必须登录!
注册