基于hadoop进行开发时,有时候,会被hadoop的三种运行模式搞混,也会被hadoop集群有哪些配置弄得晕头转向,因为看不同的文档有不同的配置方法。所以要先弄明白hadoop的运行模式,以及对应模式的有哪些必须配置,尤为重要,做到心中有数。
首先配置hadoop的组件,均可以利用XML文件进行配置,四个配置文件:core-site.xml文件用于配置通用属性(common),hdfs-site.xml文件用于HDFS的属性配置,mapred-site.xml文件用于配置MapReduce属性,yarn-site.xml用于YARN的配置。这些文件都存储在hadoop安装目录下的etc/hadoop子目录中(当然实际配置时也可以将etc/hadoop目录及其文件复制到另外一个位置,这样做的好处是将配置设置和安装文件隔离开。如果这样做的话,需要在环境变量中将HADOOP_CONF_DIR设置成指向那个新目录,或者在启动守护进程时使用--config配置选项)。其中。以上四个配置文件系统都有默认设置,分别保存在share/doc子目录下的4个HTML文件中,core-defalut.xml等等。
Hadoop的三种运行模式 :
1.独立(本地)运行模式:无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。
2.伪分布式模式: Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。
3.完全分布式模式:Hadoop守护进程运行在一个集群上。
注意:所谓分布式要启动守护进程 ,即:使用分布式hadoop时,要先启动一些准备程序进程,然后才能使用比如start-dfs.sh start-yarn.sh。而本地模式不需要启动这些守护进程
三种模式的集群必须配置信息:
下面详细分析配置三种模式的“集群”所需要的必须配置。可以配置完,体验一把,就可以主观地感受三种之间的区别。
组件名称 | 属性名称 | 本地模式 | 伪分布式 | 完全分布式 |
Common | fs.defaultFs | file:///(默认) | hdfs://localhost/ | hdfs://nanmenode |
HDFS | dfs.replication | N/A | 1 | 3(默认) |
MapReduce | mapreduce.framework.name | local(默认) | yarn | yarn |
Yarn | yarn.resoucemanager.hostname yarn.nodemanager.auxservice | N/A N/A | localhost mapreduce_shuffle | resoucemanager maperduce_shuffle |
注意:在本地模式下,将使用本地文件系统和本地MapReduce运行器。在分布式模式下,将启动HDFS和YARN守护进程。
作者:
链接:https://blog.csdn.net/qq_26442553/article/details/78710170
来源:CSDN
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。