ETL管道是指一组过程, 这些过程从输入源中提取数据, 转换数据并将其加载到输出目标(例如, 数据集市, 数据库和数据仓库)中, 以进行分析, 报告和数据同步。
ETL代表提取, 转换和加载。
提取
在此阶段, 将从各种异构源(例如业务系统, 营销工具, 传感器数据, API和交易数据库)中提取数据。
转变
第二步是将数据转换为不同应用程序使用的格式。在此阶段, 我们将数据的存储格式更改为不同应用程序中使用的格式。成功提取数据后, 我们会将数据转换为用于标准化处理的表格。 ETL流程中使用了各种工具, 例如Data Stage, Informatica或SQL Server Integration Services。
加载
这是ETL流程的最后阶段。在此, 信息以一致的格式提供。现在, 我们可以获得任何特定的数据并将其与另一部分数据进行比较。
数据仓库可以自动更新, 也可以手动触发。
这些步骤是根据需求在仓库之间执行的。作为该过程的一部分, 数据被临时存储在至少一组登台表中。
但是, 将数据加载到数据库或数据仓库时, 数据管道不会结束。 ETL目前正在增长, 因此它可以支持跨事务系统, 运营数据存储, MDM集线器, 云和Hadoop平台的集成。由于非结构化数据的增长, 数据转换的过程变得更加复杂。例如, 现代数据处理包括实时数据, 例如来自大量电子商务网站的网络分析数据。 Hadoop是大数据的代名词。开发了几种基于Hadoop的工具来处理ETL流程的不同方面。我们可以使用的工具取决于数据的结构方式, 批处理方式或是否处理数据流。
ETL管道与数据管道之间的区别
尽管ETL管道和数据管道几乎都执行相同的活动。他们跨平台移动数据并进行转换。主要区别在于为其构建管道的应用程序。
ETL管道
ETL管道是为数据仓库应用程序而构建的, 包括企业数据仓库以及特定主题的数据集市。当新应用程序替代传统应用程序时, ETL管道也用于数据迁移解决方案。 ETL管道通常是通过使用精通转换结构化数据的行业标准ETL工具构建的。
数据管道或商业智能工程师可以构建ETL管道。
数据管道
可以为使用数据带来价值的任何应用程序构建数据管道。它可用于跨应用程序集成数据, 构建数据驱动的Web产品, 构建预测模型, 创建实时数据流应用程序, 执行数据挖掘活动, 构建数字产品中的数据驱动功能。在过去十年中, 随着用于构建数据管道的开源大数据技术的可用性, 数据管道的使用有所增加。这些技术能够转换非结构化数据和结构化数据。
数据工程师建立数据管道。
ETL管道和数据管道之间的差异是:
ETL管道 | 数据管道 |
---|---|
ETL管道定义为从一个系统中提取数据, 对其进行转换并将其加载到某个数据库或数据仓库中的过程。 | 数据管道是指将数据从一个系统移动到另一个系统并沿其转换数据的任何一组处理元素。 |
ETL管道意味着该管道是批量工作的。例如, 管道每12小时运行一次。 | 数据管道还可以作为流评估运行(即, 每个事件在发生时都进行处理)。数据管道的类型是ELT管道(将整个数据加载到数据仓库中, 并在以后进行转换)。 |
评论前必须登录!
注册