本文概述
ETL代表提取, 转换和加载。在当今的数据仓库世界中, 此术语扩展到E-MPAC-TL或提取, 监视, 配置文件, 分析, 清理, 转换和加载。换句话说, ETL专注于数据质量和元数据。
萃取
提取的主要目的是尽可能快地从源系统中收集数据, 而对于这些源系统而言, 则较不方便。它还指出, 应根据情况为源日期/时间戳, 数据库日志表, 混合选择最适用的提取方法。
转换和加载
转换和加载数据将用于集成数据, 最后将组合的数据移至表示区域, 最终用户社区可以通过前端工具对其进行访问。在这里, 重点应该放在ETL工具提供的功能上, 并最有效地使用它。仅使用ETL工具是不够的。在中大型数据仓库环境中, 重要的是尽可能地标准化数据而不是进行定制。 ETL将减少不同源的吞吐量时间, 以针对开发活动, 这是传统ETL工作的大部分。
监控方式
监视数据可以验证数据, 该数据遍历整个ETL过程, 并且有两个主要目标。首先, 应筛选数据。在尽可能多地筛选传入数据与进行过多检查时, 不要减慢整个ETL过程之间应有适当的平衡。在这里, 可以使用在Ralph Kimbal筛选技术中使用的由内而外的方法。该技术可以基于一组预定义的元数据业务规则一致地捕获所有错误, 并可以通过简单的星形模式对其进行报告, 从而可以查看随时间变化的数据质量。其次, 我们应该专注于ETL性能。该元数据信息可以插入所有维度和事实表中, 并且可以称为审核维度。
质量保证
质量保证是可以根据需要定义的不同阶段之间的过程, 这些过程可以检查价值的完整性。在不同的ETL阶段之间, 我们仍然有相同数量的记录或特定度量的总数吗?此信息应作为元数据捕获。最后, 应该在整个ETL过程中预见数据沿袭, 包括产生的错误记录。
资料剖析
它用于生成有关源的统计信息。数据概要分析的目的是了解源。数据概要分析将使用分析技术, 通过分析和验证数据模式和格式以及通过识别和验证整个数据源中的冗余数据来发现数据的实际内容, 结构和质量。必须使用正确的工具来自动化该过程。它提供了大量的数据。
数据分析
为了分析概要数据的结果, 使用了数据分析。为了分析数据, 更容易识别数据质量问题, 例如丢失数据, 数据不一致, 数据无效, 约束问题, 父子问题(例如孤儿), 重复数据。正确捕捉评估结果至关重要。数据分析将成为源和数据仓库团队之间解决未决问题的沟通媒介。从源到目标的映射很大程度上取决于源分析的质量。
来源分析
在源代码分析中, 不仅应关注源代码, 而且还应关注周围环境, 以获取源代码文档。源应用程序的未来取决于当前的数据来源, 相应的数据模型/元数据存储库, 以及源所有者接收源模型和业务规则的遍历。至关重要的是, 与来源所有者举行频繁的会议, 以检测可能影响数据仓库和相关ETL流程的更改。
洁面
在本节中, 可以根据预定义规则集的元数据来修复发现的错误。在这里, 需要在完全或部分拒绝的记录之间进行区分, 并能够手动更正问题, 或者通过更正不准确的数据字段, 调整数据格式等来修复数据。
E-MPAC-TL是扩展的ETL概念, 它试图平衡需求与系统, 工具, 元数据, 技术问题, 约束以及所有数据本身之间的实际情况。
评论前必须登录!
注册