简述hadoop怎样实现二级排序。

2020-08-18 11:42发布

2条回答

D滴滴

2020-08-18 11:48

在Hadoop中，默认情况下是按照key进行排序，如果要按照value进行排序怎么办？

有两种方法进行二次排序，分别为：buffer and in memory sort和 value-to-key conversion。

buffer and in memory sort

主要思想是：在reduce()函数中，将某个key对应的所有value保存下来，然后进行排序。这种方法最大的缺点是：可能会造成out of memory。

value-to-key conversion

主要思想是：将key和部分value拼接成一个组合key（实现WritableComparable接口或者调setSortComparatorClass函数），这样reduce获取的结果便是先按key排序，后按value排序的结果，需要注意的是，用户需要自己实现Paritioner，以便只按照key进行数据划分。Hadoop显式的支持二次排序，在Configuration类中有个setGroupingComparatorClass()方法，可用于设置排序group的key值

http://dongxicheng.org/mapreduce/hadoop-join-two-tables/

查看其它2个回答

简述hadoop怎样实现二级排序。

一周热门更多>

相关问答

相关文章

简述hadoop怎样实现二级排序。

一周热门 更多>

相关问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门更多>