大数据包括海量数据, 高速数据和可扩展的各种数据。这是3种类型:结构化数据, 半结构化数据和非结构化数据。
- 结构化数据–
结构化数据是指其元素可寻址以进行有效分析的数据。它已经组织成一个格式化的存储库, 通常是一个数据库。它涉及可以在具有行和列的表中存储在数据库SQL中的所有数据。它们具有关系键, 可以轻松地映射到预先设计的字段中。如今, 这些数据在开发和管理信息的最简单方式中得到了最充分的处理。例子:关系数据。
- 半结构化数据–
半结构化数据是不驻留在关系数据库中但具有某些组织属性的信息, 这些属性使分析变得更容易。通过一些过程, 你可以将它们存储在关系数据库中(对于某种半结构化数据可能很难), 但是存在半结构化以减轻空间。例子:XML数据。
- 非结构化数据–
非结构化数据是未按预定义方式组织或没有预定义数据模型的数据, 因此它不适用于主流关系数据库。因此, 对于非结构化数据, 存在可供选择的用于存储和管理的平台, 它在IT系统中越来越流行, 并被组织用于各种商业智能和分析应用程序中。例子:Word, PDF, 文本, 媒体日志。
结构化, 半结构化和非结构化数据之间的差异:
属性 | 结构化数据 | 半结构化数据 | 非结构化数据 |
---|---|---|---|
技术 | 它基于关系数据库表 | 它基于XML / RDF(资源描述框架)。 | 它基于字符和二进制数据 |
交易管理 | 成熟的交易和各种并发技术 | 事务改编自未成熟的DBMS | 没有交易管理, 没有并发 |
版本管理 | 元组, 行, 表的版本控制 | 可以对元组或图形进行版本控制 | 整体版本化 |
灵活性 | 它依赖于架构, 灵活性较差 | 它比结构化数据更灵活, 但比非结构化数据更不灵活 | 它更灵活, 没有模式 |
可扩展性 | 扩展数据库架构非常困难 | 它的扩展比结构化数据更简单 | 它更具可扩展性。 |
坚固性 | 非常坚固 | 新技术, 不是很普及 | — |
查询效果 | 结构化查询允许复杂的联接 | 可以查询匿名节点 | 只能进行文字查询 |
评论前必须登录!
注册