数据挖掘是一种重要的方法, 可以从大量数据中提取以前未知且可能有用的信息。数据挖掘过程涉及几个组件, 这些组件构成了数据挖掘系统的体系结构。
数据挖掘架构
数据挖掘系统的重要组件是数据源, 数据挖掘引擎, 数据仓库服务器, 模式评估模块, 图形用户界面和知识库。
数据源:
数据的实际来源是数据库, 数据仓库, 万维网(WWW), 文本文件和其他文档。你需要大量的历史数据才能成功进行数据挖掘。组织通常将数据存储在数据库或数据仓库中。数据仓库可以包括一个或多个数据库, 文本文件电子表格或其他数据存储库。有时, 甚至纯文本文件或电子表格都可能包含信息。数据的另一个主要来源是万维网或互联网。
不同的过程:
在将数据传递到数据库或数据仓库服务器之前, 必须先清理, 集成和选择数据。由于信息来自各种来源且格式不同, 因此不能直接用于数据挖掘过程, 因为数据可能不完整且不准确。因此, 第一个数据需要清理和统一。从各种数据源中将收集到比所需更多的信息, 并且只需要选择感兴趣的数据并将其传递给服务器。这些过程并不像我们想象的那么容易。作为选择, 集成和清除的一部分, 可以对数据执行几种方法。
数据库或数据仓库服务器:
数据库或数据仓库服务器由准备好要处理的原始数据组成。因此, 服务器是根据用户请求检索基于数据挖掘的相关数据的原因。
数据挖掘引擎:
数据挖掘引擎是任何数据挖掘系统的主要组成部分。它包含几个用于操作数据挖掘任务的模块, 包括关联, 特征, 分类, 聚类, 预测, 时间序列分析等。
换句话说, 我们可以说数据挖掘是我们数据挖掘体系结构的基础。它包括用于从各种数据源收集并存储在数据仓库中的数据中获取见识和知识的工具和软件。
模式评估模块:
模式评估模块主要负责通过使用阈值来调查模式。它与数据挖掘引擎协作, 将搜索集中在令人兴奋的模式上。
该细分市场通常采用与数据挖掘模块配合的股权衡量标准, 以将搜索重点放在引人入胜的模式上。它可能利用风险阈值来过滤发现的模式。另一方面, 取决于所使用的数据挖掘技术的实现, 模式评估模块可以与挖掘模块协调。为了进行有效的数据挖掘, 异常建议将模式涉众的评估尽可能多地推入挖掘过程, 以将搜索范围限制在仅引人入胜的模式。
图形用户界面:
图形用户界面(GUI)模块在数据挖掘系统和用户之间进行通信。该模块可帮助用户轻松高效地使用系统, 而无需了解过程的复杂性。当用户指定查询或任务并显示结果时, 此模块与数据挖掘系统配合使用。
知识库:
知识库对数据挖掘的整个过程很有帮助。指导搜索或评估结果模式的重要性可能会有所帮助。知识库甚至可能包含来自用户体验的用户视图和数据, 这可能对数据挖掘过程有所帮助。数据挖掘引擎可以从知识库接收输入, 以使结果更加准确和可靠。模式评估模块定期与知识库交互以获取输入, 并对其进行更新。
评论前必须登录!
注册