Hadoop 中的 MapReduce 是什么？大数据架构

Hadoop中的MapReduce是什么？

MapReduce是一个软件框架和编程模型，用于处理海量数据。MapReduce程序分为两个阶段：Map和Reduce。Map任务负责拆分和映射数据，而Reduce任务负责混洗和缩减数据。

Hadoop能够运行用多种语言编写的MapReduce程序：Java、Ruby、Python和C++。云计算中的Map Reduce程序具有并行性，因此非常适合使用集群中的多台机器执行大规模数据分析。

每个阶段的输入都是键值对。此外，每个程序员都需要指定两个函数：map函数和reduce函数。

整个过程经过四个执行阶段：拆分、映射、混洗和缩减。

在本MapReduce教程中，让我们通过一个MapReduce示例来理解——

假设您的MapReduce在大数据程序中有以下输入数据：

Welcome to Hadoop Class
Hadoop is good
Hadoop is bad

MapReduce任务的最终输出是

数据将通过以下MapReduce在大数据中的阶段：

输入拆分

MapReduce在大数据作业中的输入被划分为固定大小的块，称为输入拆分。输入拆分是由单个Map消耗的输入块。输入拆分是MapReduce中用于处理大数据的输入块。

映射

这是Map-Reduce程序执行的第一个阶段。在此阶段，每个拆分中的数据将传递给映射函数以生成输出值。在我们的示例中，映射阶段的任务是计算输入拆分中每个单词的出现次数（下面将提供输入拆分的更多详细信息），并以<单词，频率>的形式准备列表。

混洗

此阶段消耗Map阶段的输出。其任务是从Map阶段的输出中整合相关记录。在我们的示例中，相同的单词及其各自的频率被分组。

缩减

在此阶段，对混洗阶段的输出值进行聚合。此阶段合并来自混洗阶段的值并返回单个输出值。简而言之，此阶段对整个数据集进行摘要。

在我们的示例中，此阶段聚合了来自混洗阶段的值，即计算每个单词的总出现次数。

现在，在本MapReduce教程中，我们将学习MapReduce的工作原理。

Hadoop将作业划分为任务。有两种类型的任务：

如上所述。

完整的执行过程（Map和Reduce任务的执行）由两种类型的实体控制，称为

对于提交到系统执行的每个作业，都有一个位于Namenode上的Jobtracker，以及位于Datanode上的多个tasktrackers。