个性化阅读
专注于IT技术分析

MapReduce教程介绍

本文概述

MapReduce教程提供了MapReduce的基本和高级概念。我们的MapReduce教程专为初学者和专业人士设计。

我们的MapReduce教程包含MapReduce的所有主题, 例如MapReduce中的数据流, Map Reduce API, 字数示例, 字符数示例等。

什么是MapReduce?

MapReduce是一种数据处理工具, 用于以分布式形式并行处理数据。它是在2004年根据Google出版的名为“ MapReduce:大型集群上的简化数据处理”的论文开发的。

MapReduce是具有两个阶段的范例, 即映射器阶段和简化器阶段。在Mapper中, 输入以键值对的形式给出。映射器的输出作为输入馈送到减速器。减速器仅在Mapper结束后才运行。减速器也接受键值格式的输入, 减速器的输出是最终输出。

Map Reduce的步骤

  • 映射以对的形式获取数据, 并返回<key, value>对的列表。在这种情况下, 键将不是唯一的。
  • 使用Map的输出, Hadoop体系结构可应用排序和混洗。这种排序和混洗对<key, value>对的这些列表起作用, 并发出唯一键和与此唯一键<key, list(values)>相关联的值的列表。
  • 分类和混洗的输出发送到减速器阶段。精简器在唯一键值列表上执行已定义的功能, 并且最终输出<键, 值>将被存储/显示。
什么是MapReduce
什么是MapReduce

排序和随机播放

排序和混洗发生在Mapper的输出上, 以及在reducer之前。当Mapper任务完成时, 结果将按键排序, 如果有多个化简器, 则将其分区, 然后写入磁盘。使用每个Mapper <k2, v2>的输入, 我们收集每个唯一键k2的所有值。来自混洗阶段的此输出以<k2, list(v2)>的形式作为输入发送到减速器阶段。

MapReduce的用法

  • 它可以用于各种应用程序, 例如文档聚类, 分布式排序和Web链接图反转。
  • 它可用于基于模式的分布式搜索。
  • 我们还可以在机器学习中使用MapReduce。
  • 谷歌使用它来重新生成谷歌对万维网的索引。
  • 它可以用于多种计算环境中, 例如多集群, 多核和移动环境。

先决条件

在学习MapReduce之前, 你必须具有大数据的基本知识。

听众

我们的MapReduce教程旨在帮助初学者和专业人士。

问题

我们保证你不会在本MapReduce教程中找到任何问题。但是, 如果有任何错误, 请在联系表格中发布问题。

赞(0)
未经允许不得转载:srcmini » MapReduce教程介绍

评论 抢沙发

评论前必须登录!