hadoop1.x版本和hadoop2.x版本区别体现在哪儿

2020-08-18 22:19发布

2条回答
yangzp
2020-08-19 13:49

什么是Hadoop1.0

Hadoop1.0即第一代Hadoop,指的是版本为Apache Hadoop 0.20.x1.x或者CDH3系列的Hadoop,内核主要由HDFSMapReduce两个系统组成,其中MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTrackerTaskTracker)和数据处理引擎(MapTaskReduceTask)三部分组成。

Hdfs:分布式的文件存储系统

Mapreduce:分布式的离线计算框架,及负责运算也负责资源的调度

 

 

什么是Hadoop2.0

Hadoop2.0即第二代Hadoop,指的是版本为Apache Hadoop 0.23.x2.x或者CDH4系列的Hadoop,内核主要由HDFSMapReduceYARN三个系统组成,其中YARN是一个资源管理系统,负责集群资源管理和调度,MapReduce则是运行在YARN上的离线处理框架,它与Hadoop 1.0中的MapReduce在编程模型(新旧API)和数据处理引擎(MapTaskReduceTask)两个方面是相同的。

 

Hdfs存储块大小的改变 64M->128M

Yarn中资源调度器:FIFO队列调度器 -> 容量调度器

HdfsYarn实现了高可用

 

 

 

两者的区别

Hadoop整体框架来说

Hadoop1.0由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。

Hadoop2.0为克服Hadoop1.0中的不足进行了下面改进:

1、针对Hadoop1.0NameNode制约HDFS的扩展性问题,提出HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展,同时彻底解决了NameNode单点故障问题;

secondrynameNode,NameNode高可用

 

2、针对Hadoop1.0中的MapReduce在扩展性和多框架支持等方面的不足,它将JobTracker中的资源管理和作业控制分开,分别由ResourceManager(负责所有应用程序的资源分配)和ApplicationMaster(负责管理一个应用程序)实现,即引入了资源管理框架Yarn

 

3Yarn作为Hadoop2.0中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度,不仅限于MapReduce一种框架,也可以为其他框架使用,如TezSparkStorm


一周热门 更多>