本文概述
Hive是一个数据仓库系统, 用于分析结构化数据。它建立在Hadoop的顶部。它是由Facebook开发的。
Hive提供读取, 写入和管理驻留在分布式存储中的大型数据集的功能。它运行类似于SQL的查询, 称为HQL(Hive查询语言), 在内部将其转换为MapReduce作业。
使用Hive, 我们可以跳过编写复杂MapReduce程序的传统方法的要求。 Hive支持数据定义语言(DDL), 数据操作语言(DML)和用户定义的函数(UDF)。
蜂巢的特征
这些是Hive的以下功能:
- Hive快速且可扩展。
- 它提供了类似SQL的查询(即HQL), 这些查询已隐式转换为MapReduce或Spark作业。
- 它能够分析存储在HDFS中的大型数据集。
- 它允许使用不同的存储类型, 例如纯文本, RCFile和HBase。
- 它使用索引来加速查询。
- 它可以对存储在Hadoop生态系统中的压缩数据进行操作。
- 它支持用户定义的功能(UDF), 用户可以在其中提供其功能。
蜂巢的局限性
- Hive无法处理实时数据。
- 它不是为在线交易处理而设计的。
- 配置单元查询包含高延迟。
蜂巢和猪之间的区别
蜂巢 | 猪 |
---|---|
Hive是数据分析师常用的。 | Pig是程序员常用的。 |
它遵循类似SQL的查询。 | 它遵循数据流语言。 |
它可以处理结构化数据。 | 它可以处理半结构化数据。 |
它在HDFS群集的服务器端工作。 | 它适用于HDFS群集的客户端。 |
蜂巢比猪慢。 | 猪比蜂巢要快。 |
评论前必须登录!
注册