MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什么？_大数据

5条回答

20200921文 - 做更棒的自己!

2楼 · 2021-04-07 11:08

但是该方法在处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了MapReduce所提供的并行架构的优势。MapReduce过程其实有几个步骤在里面： partition（分区），sort（排序），shuffle（俗称洗牌），combine（合并）等细节。

三岁奶猫

3楼 · 2021-04-07 13:45

一个MapReduce作业由Map阶段和Reduce阶段两部分组成，这两阶段会对数据排序，从这个意义上说，MapReduce框架本质就是一个Distributed Sort。
在Map阶段，Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件(中间可能产生多个文件，但最终会合并成一个)，在Reduce阶段，每个ReduceTask会对收到的数据排序，这样数据便按照key分成了若干组，之后以组为单位交给reduce方法处理。
很多人的误解在Map阶段，如果不使用Combiner便不会排序，这是错误的，不管你用不用Combiner，MapTask均会对产生的数据排序(如果没有ReduceTask，则不会排序，实际上Map阶段的排序就是为了减轻Reduce端排序负载)。
由于这些排序是MapReduce自动完成的，用户无法控制，因此，在hadoop1.x中无法避免，也不可以关闭，但hadoop2.x是可以关闭的(将reducetask设置为0)。

被迫营业的小杨 - 已经离职的小杨

4楼 · 2021-04-07 16:23

1.map最后阶段进行partition分区，一般使用job.setPartitionerClass设置的类，如果没有自定义Key的hashCode()方法进行分区。在map阶段写出到环形缓冲区，在环形缓冲区溢写时会进行一次排序，每个分区内部调用job.setSortComparatorClass设置的key的比较函数类进行排序，如果没有则使用Key的实现的compareTo方法。

2.在归并每一个maptask的环形缓冲区的所有溢写文件的时候也会再次进行排序

3.当reduce接收到所有map传输过来的数据之后，对每一个分区的数据进行merge并排序，调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序，如果没有则使用Key的实现的compareTo方法。

4.紧接着使用job.setGroupingComparatorClass设置的分组函数类，进行分组，同一个Key的value放在一个迭代器里面。如果未指定GroupingComparatorClass则则使用Key的实现的compareTo方法来对其分组。

Hadoop1.0中不可避免 hadoop2.0中可以关闭，将reducetask设置为0

MepReduce面试题：MapReduce中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

猿小猿

5楼 · 2021-04-08 11:32

但是该方法在处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了MapReduce所提供的并行架构的优势。MapReduce过程其实有几个步骤在里面： partition（分区），sort（排序），shuffle（俗称洗牌），combine（合并）等细节

王先森

6楼 · 2021-04-22 19:08

因为一台机器必须处理所有输出文件，从而完全丧失了MapReduce所提供的并行架构的优势。MapReduce过程其实有几个步骤在里面： partition（分区），sort（排序），shuffle（俗称洗牌），combine（合并）等细节。

相关问题推荐

什么是大数据时代？2021-01-13 21:23

回答 100

大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，而这个海量数据的时代则被称为大数据时代。随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。大数据（Big data）通常用来形容一个公司创造的大量非结...
Java和大数据有什么关系？2021-01-13 21:25

回答 84

Java和大数据的关系：Java是计算机的一门编程语言；可以用来做很多工作，大数据开发属于其中一种；大数据属于互联网方向，就像现在建立在大数据基础上的AI方向一样，他两不是一个同类，但是属于包含和被包含的关系；Java可以用来做大数据工作，大数据开发或者...
大数据方向学完，都可以从事什么岗位2020-11-19 10:19

回答 52

已采纳

学完大数据可以从事很多工作，比如说：hadoop 研发工程师、大数据研发工程师、大数据分析工程师、数据库工程师、hadoop运维工程师、大数据运维工程师、java大数据工程师、spark工程师等等都是我们可以从事的工作岗位！不同的岗位，所具备的技术知识也是不一样...
大数据的基本特征有哪些？2021-05-07 19:10

回答 29

简言之，大数据是指大数据集，这些数据集经过计算分析可以用于揭示某个方面相关的模式和趋势。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。大数据的特点：数据量大、数据种类多、要求实时性强、数据所蕴藏的...
tailf、tail -f、tail -F三者区别2020-06-09 18:47

回答 14

tail -f的时候，发现一个奇怪的现象,首先我在一个窗口中 tail -f test.txt 然后在另一个窗口中用vim编辑这个文件，增加了几行字符，并保存，这个时候发现第一个窗口中并没有变化，没有将最新的内容显示出来。tail -F，重复上面的实验过程，发现这次有变化了...
听说大专学历学大数据不好找工作是么？2020-06-17 13:52

回答 18

您好针对您的问题，做出以下回答，希望有所帮助！1、大数据行业还是有非常大的人才需求的，对于就业也有不同的岗位可选，比如大数据工程师，大数据运维，大数据架构师，大数据分析师等等，就业难就难在能否找到适合的工作，能否与你的能力和就业预期匹配。2、...
大数据的数据单位有哪些？2021-05-07 19:12

回答 17

最小的基本单位是Byte应该没多少人不知道吧，下面先按顺序给出所有单位：Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB，按照进率1024（2的十次方）计算：1Byte = 8 Bit1 KB = 1,024 Bytes　1 MB = 1,024 KB = 1,048,576 Bytes　1 GB = 1,024 MB = 1,048,576...
什么是“大数据”，如何理解“大数据”？2021-01-13 21:23

回答 33

大数据的定义。大数据，又称巨量资料，指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据是对大量、动态、能持续的数据，通过运用新系统、新工具、新...
什么是MySQL?MySQL为什么有两个版本?mysql 2022-05-07 18:02

回答 5

MySQL是一种关系型数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。MySQL的版本：针对不同的用户，MySQL分为两种不同的版本：MySQL Community Server社区版本，免费，但是Mysql不提供...
mysql安装步骤 mysql 2022-05-07 18:01

回答 2

mysql安装需要先使用yum安装mysql数据库的软件包；然后启动数据库服务并运行mysql_secure_installation去除安全隐患，最后登录数据库，便可完成安装
mysql查看数据库命令 mysql 2022-04-20 18:59

回答 5

1.查看所有数据库showdatabases;2.查看当前使用的数据库selectdatabase();3.查看数据库使用端口showvariableslike'port';4.查看数据库编码showvariableslike‘%char%’;character_set_client 为客户端编码方式; character_set_connection 为建立连接...
mysql数据库怎么创建表 mysql 2022-04-20 18:58

回答 5

CREATE TABLE IF NOT EXISTS `runoob_tbl`( `runoob_id` INT UNSIGNED AUTO_INCREMENT, `runoob_title` VARCHAR(100) NOT NULL, `runoob_author` VARCHAR(40) NOT NULL, `submission_date` DATE, PRI...
数据库增删改查要学多久 增删改查 2022-04-02 17:11

回答 9

学习多久，我觉得看你基础情况。1、如果原来什么语言也没有学过，也没有基础，那我觉得最基础的要先选择一种语言来学习，是VB,C..,pascal，看个人的喜好，一般情况下，选择C语言来学习。2、如果是有过语言的学习，我看应该一个星期差不多，因为语言的理念互通...
常用的四种sql增删改查 增删改查 2022-04-02 17:07

回答 7

添加语句 INSERT插入语句:INSERT INTO 表名 VALUES (‘xx’,‘xx’)不指定插入的列INSERT INTO table_name VALUES (值1, 值2,…)指定插入的列INSERT INTO table_name (列1, 列2,…) VALUES (值1, 值2,…)查询插入语句： INSERT INTO 插入表 SELECT * FROM 查...
MySQL只会基础的增删改查实习期够用么？增删改查 2022-04-01 19:09

回答 5

看你什么岗位吧。如果是后端，只会CRUD。应该是可以找到实习的，不过公司应该不会太好。如果是数据库开发岗位，那这应该是不会找到的。
MySQL的增删改查语句总结 增删改查 2022-04-01 19:01

回答 7

查找数据列 SELECT column1, column2, … FROM table_name; SELECT column_name(s) FROM table_name

没有解决我的问题，去提问

MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

相关问题推荐

等你来答

热门问答

相关文章

MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间