hadoop中WritableComparator和WritableComparable的区别是什么_Hadoop

3条回答

2楼 · 2020-08-11 20:34

WritableComparable排序(接口)：

1.WritableComparable是Hadoop的排序方式之一，而排序是MapReduce框架中最重要的操作之一，它就是用来给数据排序的(按照Key排好)，常发生在MapTask与ReduceTask的传输过程中(就是数据从map方法写到reduce方法之间)

任何应用程序中的数据均会被排序，不管逻辑上是否需要，都排序

Map Task和Reduce Task均会对数据(按照key)进行排序，此操作属于Hadoop的默认行为

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序，例如环形缓冲区中将数据写入分区后会进行区内的局部排序，使用的就是快排

2.实现接口后通常重写 compareTo() ，write()，readFields()方法来实现自定义排序和序列化

查看WritableComparable，原来它同时实现了Writable和java中的Comparable这两个接口

3.对于Map Task，它会将处理的结果暂时放到一个缓冲区中，当缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次排序(部分排序-，每个分区内部进行，方式为快速排序)，并将这些有序数据写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行一次合并，以将这些文件合并成一个大的有序文件(全排序，方式为归并)

Mapreduce框架在记录到达reducer之前按键对记录排序(GroupingComparator分组)，但键所对应的值并没有被排序。甚至在不同的执行轮次中，这些值的排序也不固定，因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说，大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是，有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。

对于Reduce Task，它从每个Map Task上远程拷贝相应的数据文件，如果文件大小超过一定值，则放到磁盘上(这个过程就是环形缓冲区的溢写功能)，否则放到内存中。如果磁盘上文件数目达到一定值，则进行一次合并以生成一个更大文件;如果内存中文件大小或者数目超过一定值，则进行一次合并后将数据写到磁盘上。当所有数据拷贝完毕后，Reduce Task统一对内存和磁盘上的所有数据进行一次合并。

WritableComparator排序(类)：

它是用来给Key分组的

它在ReduceTask中进行，默认的类型是GroupingComparator也可以自定义

WritableComparator为辅助排序手段提供基础(继承它)，用来应对不同的业务需求

比如GroupingComparator会在ReduceTask将文件写入磁盘并排序后按照Key进行分组，判断下一个key是否相同，将同组的Key传给reduce()执行

我的网名不再改

3楼 · 2020-08-12 13:36

Hadoop中Writable，WritableComparable，WritableComparator之间有什么区别？

先大致了解一下"

一、Writable（接口）：

其实Java用的是一套重量级的序列化框架（Serializable），一个类实现了序列化之后此类对象会附带各类校验啊、继承体啊、header等额外信息，更多的信息使得此种序列化机制不便于在网络中高效传输，对于本就是用来传输大数据的hadoop框架更不合适。所以Hadoop使用自己的序列化机制，就是Writable，它不像Serializable这么复杂，Writable大致特点如下：

1.紧凑：紧凑的格式能让我们充分利用网络带宽，而带宽是数据中心最稀缺的资源

2.快速：进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的

3.可扩展：协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文

4.交互操作: 能支持不同语言写的客户端和服务端进行交互

简单来说，加入我自定义了一个bean类，加入涉及到此对象在mapper、reducer等这种数据传输，都要实现Writable接口

二、WritableComparable排序（接口）：

首先，

WritableComparable是Hadoop的排序方式之一，而排序是MapReduce框架中最重要的操作之一，它就是用来给数据排序的（按照Key排好），常发生在MapTask与ReduceTask的传输过程中（就是数据从map方法写到reduce方法之间）

任何应用程序中的数据均会被排序，不管逻辑上是否需要，都排序

Map Task和Reduce Task均会对数据（按照key）进行排序，此操作属于Hadoop的默认行为

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序，例如环形缓冲区中将数据写入分区后会进行区内的局部排序，使用的就是快排

其次，

实现接口后通常重写 compareTo() ，write()，readFields()方法来实现自定义排序和序列化

查看WritableComparable，原来它同时实现了Writable和java中的Comparable这两个接口

此外，

对于Map Task，它会将处理的结果暂时放到一个缓冲区中，当缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次排序（部分排序-，每个分区内部进行，方式为快速排序），并将这些有序数据写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行一次合并，以将这些文件合并成一个大的有序文件（全排序，方式为归并）

Mapreduce框架在记录到达reducer之前按键对记录排序（GroupingComparator分组），但键所对应的值并没有被排序。甚至在不同的执行轮次中，这些值的排序也不固定，因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说，大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是，有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。

对于Reduce Task，它从每个Map Task上远程拷贝相应的数据文件，如果文件大小超过一定值，则放到磁盘上（这个过程就是环形缓冲区的溢写功能），否则放到内存中。如果磁盘上文件数目达到一定值，则进行一次合并以生成一个更大文件；如果内存中文件大小或者数目超过一定值，则进行一次合并后将数据写到磁盘上。当所有数据拷贝完毕后，Reduce Task统一对内存和磁盘上的所有数据进行一次合并。

二、WritableComparator排序（类）：

它是用来给Key分组的

它在ReduceTask中进行，默认的类型是GroupingComparator也可以自定义

WritableComparator为辅助排序手段提供基础（继承它），用来应对不同的业务需求

比如GroupingComparator会在ReduceTask将文件写入磁盘并排序后按照Key进行分组，判断下一个key是否相同，将同组的Key传给reduce()执行

乐xenia

4楼 · 2020-08-12 17:20

一、Writable（接口）：

1.紧凑：紧凑的格式能让我们充分利用网络带宽，而带宽是数据中心最稀缺的资源

2.快速：进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的

3.可扩展：协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文

4.交互操作: 能支持不同语言写的客户端和服务端进行交互

简单来说，加入我自定义了一个bean类，加入涉及到此对象在mapper、reducer等这种数据传输，都要实现Writable接口

二、WritableComparable排序（接口）：

首先，

任何应用程序中的数据均会被排序，不管逻辑上是否需要，都排序

Map Task和Reduce Task均会对数据（按照key）进行排序，此操作属于Hadoop的默认行为

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序，例如环形缓冲区中将数据写入分区后会进行区内的局部排序，使用的就是快排

其次，

实现接口后通常重写 compareTo() ，write()，readFields()方法来实现自定义排序和序列化

查看WritableComparable，原来它同时实现了Writable和java中的Comparable这两个接口

此外，

二、WritableComparator排序（类）：

它是用来给Key分组的

它在ReduceTask中进行，默认的类型是GroupingComparator也可以自定义

WritableComparator为辅助排序手段提供基础（继承它），用来应对不同的业务需求

比如GroupingComparator会在ReduceTask将文件写入磁盘并排序后按照Key进行分组，判断下一个key是否相同，将同组的Key传给reduce()执行

hadoop中WritableComparator和WritableComparable的区别是什么

Hadoop中Writable，WritableComparable，WritableComparator之间有什么区别？

相关问题推荐

等你来答

热门问答

相关文章

hadoop中WritableComparator和WritableComparable的区别是什么

Hadoop中Writable，WritableComparable，WritableComparator之间有什么区别？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间