本文概述
MapReduce教程提供了MapReduce的基本和高级概念。我们的MapReduce教程专为初学者和专业人士设计。
我们的MapReduce教程包含MapReduce的所有主题, 例如MapReduce中的数据流, Map Reduce API, 字数示例, 字符数示例等。
什么是MapReduce?
MapReduce是一种数据处理工具, 用于以分布式形式并行处理数据。它是在2004年根据Google出版的名为“ MapReduce:大型集群上的简化数据处理”的论文开发的。
MapReduce是具有两个阶段的范例, 即映射器阶段和简化器阶段。在Mapper中, 输入以键值对的形式给出。映射器的输出作为输入馈送到减速器。减速器仅在Mapper结束后才运行。减速器也接受键值格式的输入, 减速器的输出是最终输出。
Map Reduce的步骤
- 映射以对的形式获取数据, 并返回<key, value>对的列表。在这种情况下, 键将不是唯一的。
- 使用Map的输出, Hadoop体系结构可应用排序和混洗。这种排序和混洗对<key, value>对的这些列表起作用, 并发出唯一键和与此唯一键<key, list(values)>相关联的值的列表。
- 分类和混洗的输出发送到减速器阶段。精简器在唯一键值列表上执行已定义的功能, 并且最终输出<键, 值>将被存储/显示。
排序和随机播放
排序和混洗发生在Mapper的输出上, 以及在reducer之前。当Mapper任务完成时, 结果将按键排序, 如果有多个化简器, 则将其分区, 然后写入磁盘。使用每个Mapper <k2, v2>的输入, 我们收集每个唯一键k2的所有值。来自混洗阶段的此输出以<k2, list(v2)>的形式作为输入发送到减速器阶段。
MapReduce的用法
- 它可以用于各种应用程序, 例如文档聚类, 分布式排序和Web链接图反转。
- 它可用于基于模式的分布式搜索。
- 我们还可以在机器学习中使用MapReduce。
- 谷歌使用它来重新生成谷歌对万维网的索引。
- 它可以用于多种计算环境中, 例如多集群, 多核和移动环境。
先决条件
在学习MapReduce之前, 你必须具有大数据的基本知识。
听众
我们的MapReduce教程旨在帮助初学者和专业人士。
问题
我们保证你不会在本MapReduce教程中找到任何问题。但是, 如果有任何错误, 请在联系表格中发布问题。
评论前必须登录!
注册