重庆分公司,新征程启航

为企业提供网站建设、域名注册、服务器等服务

MapReduce原理及实例分析-创新互联

前言

让客户满意是我们工作的目标,不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户,将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴,公司提供的服务项目有:主机域名、网页空间、营销软件、网站建设、资源网站维护、网站推广。

由于最近开始涉及MR程序的编写,之前会一点HIVE,对MR接触不多,不论从原理还是实际操作上,都有些障碍,终于在今天柳暗花明,将这一过程记录下,与大家分享~

环境准备

在VM上搭建好LINUX虚拟机,并安装配置好HADOOP2.2.0,我这里是单节点的伪分布式

在eclipse中安装hadoop插件

对我们这种MR的新手而言,最好在本地有一个HADOOP运行环境,这样有许多好处:

如果我们每次写完MR程序,都打成JAR包上传至线上服务器上运行,那么每次MR运行的时间非常长,也许等待了许久,运行结果和我们预期不一致,又得改程序重新来一边,这会有一点痛苦!

在我们本地的HADOOP上运行MR程序非常快,就那么几秒,更加重要的是,我们可以再

本地准备输入文件去测试MR的逻辑,这对调试/开发程序非常方便!

实例及原理分析

假设,我们有这样的输入文件:

cate-a spu-1 1

cate-a spu-1 2

cate-a spu-2 3

cate-a spu-2 4

cate-a spu-3 5

cate-a spu-3 6

cate-a spu-1 7

cate-a spu-4 8

cate-a spu-4 9

cate-a spu-1 8

...

我们希望得到分cate,分spu的总和,并且取分cate分spu的TOP3

MapReduce原理及实例分析

如上图示,大致描述了MAP/REDUCE的运行流程:

  • 输入文件+InputFormat  提供给MAP

  • 需要清楚提供给MAP的KEY1/VALUE1是什么?MAP准备输出的KEY2/VALUE2是什么?

  • MAP输出后,会进行分区操作,也就是决定KEY2/VALUE2发到哪些reduce上

  • 分区由job.setPartitionerClass决定

  • 在同一个分区内,会对KEY2进行排序,依据是job.setSortComparatorClass,

    如果没有设置则根据KEY的compareTo方法

  • 接下来进入分组阶段,会构造KEY3和VALUE迭代器

  • 分组的依据是job.setGroupingComparatorClass,只要比较器比较的相同就在同一组

  • KEY3/VALUE迭代器交给reduce方法处理

步骤:

  • 自定义KEY

KEY应该是可序列化,可比较的,只需要注意实现WritableComparable即可。

重点关注compareTo方法。

@Override
public int compareTo(Cate2SpuKey that) {
System.out.println("开始对KEY进行排序...");
if(cate2.equals(that.getCate2())){
return spu.compareTo(that.getSpu());
}
return cate2.compareTo(that.getCate2());
}

  • 分区

分区,是KEY的第一次比较,extends Partitioner 并提供getPartition即可。

这里根据cate分区。

  • 分组

需要注意的是,分组类必须提供构造方法,并且重载

public int compare(WritableComparable w1, WritableComparable w2) 。这里根据cate,spu分组。

通过上述的,就可以取得分cate分spu的SUM(counts)值了。

通过eclipse hadoop插件,可以方便我们上传测试文件到HDFS,可以浏览,删除HDFS文件,更加方便的是,就像运行普通JAVA程序一样的运行/调试MR程序(不在需要打成JAR包),让我们可以追踪MR的每一步,非常方便进行逻辑性测试~

MapReduce原理及实例分析

那么怎么取分cate分spu的TOP3呢?

我们只需要把上一个MR的输出文件,作为另一个MR的输入,并且以cate+counts 为KEY ,以spu为VALUE,根据cate分区,分组,排序的话:cate相同情况下,根据counts倒序;

最后在reduce阶段取TOP3即可。

@Override
protected void reduce(Cate2CountsKey key, Iterable values,
Reducer.Context context)
throws IOException, InterruptedException {
System.out.println("reduce...");
System.out.println("VALUES迭代前... key:" + key.toString());
System.out.println("VALUES迭代前... key:" + key.getCounts());
int top = 3;
for(Text t : values){
if(top > 0){
System.out.println("VALUES迭代中... key:" + key.toString());
System.out.println("VALUES迭代中... key:" + key.getCounts());
context.write(new Text(key.getCate2() + "\t" + t.toString()), 
new Text(key.getCounts() 
+ ""));
top--;
}
}
System.out.println("reduce over...");
}

MapReduce原理及实例分析

那么到现在,分组取TOP就完成了。

一个疑问:reduce阶段中的KEY到底是什么?

在上面例子中的取TOP3的MR中,我们是以cate+counts为KEY,spu为VALUE。

cate作为分区,分组的依据,排序根据同一个cate下counts倒序。如下图所示:

MapReduce原理及实例分析

那么reduce方法中的KEY是什么?

spu1,spu4,spu3...是VALUES中的,那么这个迭代器的对应KEY是什么呢?

是cate+42吗?还是其他?

在VALUES迭代过程中,这个KEY会变化吗?

我们可以看下ECLIPSE中的控制台打印输出的内容:

MapReduce原理及实例分析

从打印上来看,可以分析出如下结论:

分组后,交给reduce方法处理的KEY是同一组的所有KEY的第一个KEY,并且在VALUES迭代过程中,KEY并不会重新NEW,而是利用SETTER反射的方式重新设置属性值,这样在VALUES迭代过程中取得的KEY都是与之对应的KEY了。

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


当前名称:MapReduce原理及实例分析-创新互联
链接分享:http://cqcxhl.cn/article/cseegj.html

其他资讯

在线咨询
服务热线
服务热线:028-86922220
TOP