hadoop的三种运行模式区别及配置详解

2020-10-09 17:46发布

  基于hadoop进行开发时,有时候,会被hadoop的三种运行模式搞混,也会被hadoop集群有哪些配置弄得晕头转向,因为看不同的文档有不同的配置方法。所以要先弄明白hadoop的运行模式,以及对应模式的有哪些必须配置,尤为重要,做到心中有数。

       首先配置hadoop的组件,均可以利用XML文件进行配置,四个配置文件:core-site.xml文件用于配置通用属性(common),hdfs-site.xml文件用于HDFS的属性配置,mapred-site.xml文件用于配置MapReduce属性,yarn-site.xml用于YARN的配置。这些文件都存储在hadoop安装目录下的etc/hadoop子目录中(当然实际配置时也可以将etc/hadoop目录及其文件复制到另外一个位置,这样做的好处是将配置设置和安装文件隔离开。如果这样做的话,需要在环境变量中将HADOOP_CONF_DIR设置成指向那个新目录,或者在启动守护进程时使用--config配置选项)。其中。以上四个配置文件系统都有默认设置,分别保存在share/doc子目录下的4个HTML文件中,core-defalut.xml等等。

       Hadoop的三种运行模式 :

          1.独立(本地)运行模式:无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。

          2.伪分布式模式:  Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。

          3.完全分布式模式:Hadoop守护进程运行在一个集群上。

            注意:所谓分布式要启动守护进程 ,即:使用分布式hadoop时,要先启动一些准备程序进程,然后才能使用比如start-dfs.sh  start-yarn.sh。而本地模式不需要启动这些守护进程

      三种模式的集群必须配置信息:

  下面详细分析配置三种模式的“集群”所需要的必须配置。可以配置完,体验一把,就可以主观地感受三种之间的区别。               

组件名称 属性名称本地模式伪分布式完全分布式
Commonfs.defaultFsfile:///(默认)hdfs://localhost/hdfs://nanmenode
HDFSdfs.replicationN/A13(默认)
MapReducemapreduce.framework.namelocal(默认)yarnyarn
Yarn 

yarn.resoucemanager.hostname

yarn.nodemanager.auxservice

N/A

N/A

localhost

mapreduce_shuffle

resoucemanager

   maperduce_shuffle

注意:在本地模式下,将使用本地文件系统和本地MapReduce运行器。在分布式模式下,将启动HDFS和YARN守护进程。

作者:涤生手记

链接:https://blog.csdn.net/qq_26442553/article/details/78710170

来源:CSDN
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。