2021-04-26 19:54发布
1. 分析
(1)配置集群
(2)启动、测试集群增、删、查
(3)执行WordCount案例
2. 执行步骤
(a)配置:hadoop-env.sh
Linux系统中获取JDK的安装路径:
[atguigu@ hadoop101 ~]# echo $JAVA_HOME
/opt/module/jdk1.8.0_144
修改JAVA_HOME 路径:
在Hadoop的目录下,vim Hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
(b)配置:core-site.xml
fs.defaultFS
hdfs://hadoop101:9000
hadoop.tmp.dir
/opt/module/hadoop-2.7.2/data/tmp
c)配置:hdfs-site.xml
dfs.replication
1
(2)启动集群
(a)格式化NameNode(第一次启动时格式化,以后就不要总格式化)
[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format
(b)启动NameNode
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode
(c)启动DataNode
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode
伪分布模式操作是指在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式操作之上多了代码调试功能,可以查阅内存的使用情况、HDFS的输入输出以及守护进程之间的交互。
1.配置文件路径 ${HADOOP_HOME}/etc/hadoop/ *-site.xml
2.配置core-site.xml //配置核心文件:使用hdfs文件系统协议
hdfs://localhost/
3.配置hdfs-site.xml //配置hdfs文件系统: 副本数 1
4.配置mapred-site.xml //配置计算框架 : yarn
mapreduce.framework.name
yarn
5.配置yarn-site.xml //配置yarn框架: 资源管理器主机和辅助服务:localhost ,mapreduce_shuffle
yarn.resourcemanager.hostname
localhost
yarn.nodemanager.aux-services
mapreduce_shuffle
6.配置SSH:登陆远程主机,无口令提示
$>sudo apt-get install ssh //安装服务端sshd和客户端ssh
//(安装之前要修改163或者阿里源,并且更新和升级)
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa //生成秘钥对:公钥和私钥
$>cat id_rsa.pub >> ~/.ssh/authorized_keys //将公钥发给对方,并添加到对方的认证库中
$>ssh localhost //连接,yes
$>exit
7.格式化hdfs文件系统
a.$> hdfs namenode -format
b.报错:java.net.UnknownHostException: 主机名: 主机名
修改/etc/hosts文件
127.0.0.1 主机名 localhost.localdomain localhost
或是再添加一条
127.0.0.1 主机名
主机名是新加的,原来没有,保存,问题解决。
8.启动 hdfs 和 yarn守护进程
$> start-dfs.sh //启动hadoop分布式文件系统
$> start-yarn.sh //启动yarn资源管理框架
$> jps //查看进程
9.停止 hdfs 和 yarn
$> stop-dfs.sh //停止hadoop分布式文件系统
$> stop-yarn.sh //停止yarn资源管理框架
10.创建hdfs目录
a. $> hadoop fs -mkdir -p /user/ubuntu //创建目录 -p 多级目录
a. $> hadoop fs -ls / //显示根目录
a. $> hadoop fs -ls -R / //递归显示根目录 hadoop fs -lsr /
11.查看帮助
$> hadoop fs //直接回车,查看fs:文件系统的帮助
$> hadoop fs -help put //查看文件系统下的具体命令的帮助(help)
12.查看namenode 和 datanode 在本地系统的表现方式
$> cd /tmp/ubuntu-hadoop/dfs/name/...
$> cd /tmp/ubuntu-hadoop/dfs/data/...
13.查看日志log
a.$> ${HADOOP_HOME}/logs
b.通过webui查看
http://localhost:50070/ //查看namenode的信息
http://localhost:8088/ //查看resourceManager集群信息,只有在本机访问才可以
http://localhost:19888/ //查看历史服务器hsitory的日志
14.通过netstat 查看端口占用情况
$> netstat -lupt
创建test文件夹hadoop fs -mkdir /test
Hadoop的三大核心组件分别是:1、HDFS(Hadoop Distribute File System):hadoop的数据存储工具。2、YARN(Yet Another Resource Negotiator,另一种资源协调者):Hadoop 的资源管理器。3、Hadoop MapReduce:分布式计算框架。HDFS是一个高度容错性的系统,适合部...
hbase依靠HDFS来存储底层数据。Hadoop分布式文件系统(HDFS)为HBase提供了高可靠性的底层存储支持,HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。
HBase分布式数据库具有如下的显著特点:容量大:HBase分布式数据库中的表可以存储成千上万的行和列组成的数据。面向列:HBase是面向列的存储和权限控制,并支持独立检索。列存储,其数据在表中是按照某列存储的,根据数据动态的增加列,并且可以单独对列进行...
解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务...
1、HBase写快读慢,HBase的读取时长通常是几毫秒,而Redis的读取时长通常是几十微秒。性能相差非常大。2、HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰富的类型。3、Redis支持的数据量通常受内存限制,而HBase没有这个限制,可以存储远超内存大小...
列式存储格式是指以列为单位存储数据的数据存储格式,相比于传统的行式存储格式,它具有压缩比高、读I/O少(此处指可避免无意义的读I/O)等优点,目前被广泛应用于各种存储引擎中。对于HBase而言,它并不是一个列式存储引擎,而是列簇式存储引擎,即同一列簇中...
一、简单理解Hadoop是一个大象:一个hadoop集群主要包含三个主要的模块:Mapreduce,hdfs,yarn。mapreduce是一个分离在合并的计算框架,注意他不是一个集群,而是一个编程框架。hdfs是一个分布式文件系统,是一个分布式集群,用于存放数据。yarn集群是负责集群...
01 网络公开数据集02 数据报采集03 网络爬虫04 日志收集05 社会调查06 业务数据集07 埋点采集08 传感器采集09 数据交易平台10 个人数据收集
1 Hadoop 各个目录的解释bin:Hadoop管理脚本和使用脚本所在目录, sbin目录下的脚本都是使用此目录下的脚本实现的。etc:Hadoop的所有配置文件所在的目录,所有hadoop的配置在etc/hadoop目录下include:对外提供的库的头文件lib :对外提供的动态编程库和静态...
HDFS存储机制,包括HDFS的写入过程和读取过程两个部分: 1、写入过程: 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)nam...
adoop核心:MapReduce原理。 MR的核心是shuffle,被称为奇迹发生的地方。 shuffle,弄乱,洗牌的意思。partition 分区,sort 排序,spill溢出,disk 磁盘下面是官方对shuffle的配图: phase 阶段,fetch 最终,merge 合并...
Shuffle阶段分为两部分:Map端和Reduce端。一 map端shuffle过程;1-内存预排序:默认每个map有100M内存进行预排序(为了效率),超过阈值,会把内容写到磁盘; 此过程使用快速排序算法;2-根据key和reducer的数量进行分区和排序;首先根据数据所属的Parti...
大数据时代需要1存储大量数据2快速的处理大量数据3从大量数据中进行分析
hadoop的四种模式。1、本地模式:本地模式就是解压源码包,不需要做任何的配置。通常用于开发调试,或者感受hadoop。2、伪分布模式:在学习当中一般都是使用这种模式,伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程,但是却...
进入和退出安全模式 [root@localhost bin]# ./hdfs dfsadmin -safemode enter15/08/03 07:26:24 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where ......
最多设置5个标签!
1. 分析
(1)配置集群
(2)启动、测试集群增、删、查
(3)执行WordCount案例
2. 执行步骤
(1)配置集群
(a)配置:hadoop-env.sh
Linux系统中获取JDK的安装路径:
[atguigu@ hadoop101 ~]# echo $JAVA_HOME
/opt/module/jdk1.8.0_144
修改JAVA_HOME 路径:
在Hadoop的目录下,vim Hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
(b)配置:core-site.xml
c)配置:hdfs-site.xml
(2)启动集群
(a)格式化NameNode(第一次启动时格式化,以后就不要总格式化)
[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format
(b)启动NameNode
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode
(c)启动DataNode
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode
伪分布模式操作是指在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式操作之上多了代码调试功能,可以查阅内存的使用情况、HDFS的输入输出以及守护进程之间的交互。
1.配置文件路径 ${HADOOP_HOME}/etc/hadoop/ *-site.xml
2.配置core-site.xml //配置核心文件:使用hdfs文件系统协议
3.配置hdfs-site.xml //配置hdfs文件系统: 副本数 1
4.配置mapred-site.xml //配置计算框架 : yarn
5.配置yarn-site.xml //配置yarn框架: 资源管理器主机和辅助服务:localhost ,mapreduce_shuffle
6.配置SSH:登陆远程主机,无口令提示
$>sudo apt-get install ssh //安装服务端sshd和客户端ssh
//(安装之前要修改163或者阿里源,并且更新和升级)
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa //生成秘钥对:公钥和私钥
$>cat id_rsa.pub >> ~/.ssh/authorized_keys //将公钥发给对方,并添加到对方的认证库中
$>ssh localhost //连接,yes
$>exit
7.格式化hdfs文件系统
a.$> hdfs namenode -format
b.报错:java.net.UnknownHostException: 主机名: 主机名
修改/etc/hosts文件
127.0.0.1 主机名 localhost.localdomain localhost
或是再添加一条
127.0.0.1 主机名
主机名是新加的,原来没有,保存,问题解决。
8.启动 hdfs 和 yarn守护进程
$> start-dfs.sh //启动hadoop分布式文件系统
$> start-yarn.sh //启动yarn资源管理框架
$> jps //查看进程
9.停止 hdfs 和 yarn
$> stop-dfs.sh //停止hadoop分布式文件系统
$> stop-yarn.sh //停止yarn资源管理框架
$> jps //查看进程
10.创建hdfs目录
a. $> hadoop fs -mkdir -p /user/ubuntu //创建目录 -p 多级目录
a. $> hadoop fs -ls / //显示根目录
a. $> hadoop fs -ls -R / //递归显示根目录 hadoop fs -lsr /
11.查看帮助
$> hadoop fs //直接回车,查看fs:文件系统的帮助
$> hadoop fs -help put //查看文件系统下的具体命令的帮助(help)
12.查看namenode 和 datanode 在本地系统的表现方式
$> cd /tmp/ubuntu-hadoop/dfs/name/...
$> cd /tmp/ubuntu-hadoop/dfs/data/...
13.查看日志log
a.$> ${HADOOP_HOME}/logs
b.通过webui查看
http://localhost:50070/ //查看namenode的信息
http://localhost:8088/ //查看resourceManager集群信息,只有在本机访问才可以
http://localhost:19888/ //查看历史服务器hsitory的日志
14.通过netstat 查看端口占用情况
$> netstat -lupt
相关问题推荐
创建test文件夹hadoop fs -mkdir /test
Hadoop的三大核心组件分别是:1、HDFS(Hadoop Distribute File System):hadoop的数据存储工具。2、YARN(Yet Another Resource Negotiator,另一种资源协调者):Hadoop 的资源管理器。3、Hadoop MapReduce:分布式计算框架。HDFS是一个高度容错性的系统,适合部...
hbase依靠HDFS来存储底层数据。Hadoop分布式文件系统(HDFS)为HBase提供了高可靠性的底层存储支持,HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。
HBase分布式数据库具有如下的显著特点:容量大:HBase分布式数据库中的表可以存储成千上万的行和列组成的数据。面向列:HBase是面向列的存储和权限控制,并支持独立检索。列存储,其数据在表中是按照某列存储的,根据数据动态的增加列,并且可以单独对列进行...
解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务...
1、HBase写快读慢,HBase的读取时长通常是几毫秒,而Redis的读取时长通常是几十微秒。性能相差非常大。2、HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰富的类型。3、Redis支持的数据量通常受内存限制,而HBase没有这个限制,可以存储远超内存大小...
列式存储格式是指以列为单位存储数据的数据存储格式,相比于传统的行式存储格式,它具有压缩比高、读I/O少(此处指可避免无意义的读I/O)等优点,目前被广泛应用于各种存储引擎中。对于HBase而言,它并不是一个列式存储引擎,而是列簇式存储引擎,即同一列簇中...
一、简单理解Hadoop是一个大象:一个hadoop集群主要包含三个主要的模块:Mapreduce,hdfs,yarn。mapreduce是一个分离在合并的计算框架,注意他不是一个集群,而是一个编程框架。hdfs是一个分布式文件系统,是一个分布式集群,用于存放数据。yarn集群是负责集群...
01 网络公开数据集02 数据报采集03 网络爬虫04 日志收集05 社会调查06 业务数据集07 埋点采集08 传感器采集09 数据交易平台10 个人数据收集
1 Hadoop 各个目录的解释bin:Hadoop管理脚本和使用脚本所在目录, sbin目录下的脚本都是使用此目录下的脚本实现的。etc:Hadoop的所有配置文件所在的目录,所有hadoop的配置在etc/hadoop目录下include:对外提供的库的头文件lib :对外提供的动态编程库和静态...
HDFS存储机制,包括HDFS的写入过程和读取过程两个部分: 1、写入过程: 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)nam...
adoop核心:MapReduce原理。 MR的核心是shuffle,被称为奇迹发生的地方。 shuffle,弄乱,洗牌的意思。partition 分区,sort 排序,spill溢出,disk 磁盘下面是官方对shuffle的配图: phase 阶段,fetch 最终,merge 合并...
Shuffle阶段分为两部分:Map端和Reduce端。一 map端shuffle过程;1-内存预排序:默认每个map有100M内存进行预排序(为了效率),超过阈值,会把内容写到磁盘; 此过程使用快速排序算法;2-根据key和reducer的数量进行分区和排序;首先根据数据所属的Parti...
大数据时代需要1存储大量数据2快速的处理大量数据3从大量数据中进行分析
hadoop的四种模式。1、本地模式:本地模式就是解压源码包,不需要做任何的配置。通常用于开发调试,或者感受hadoop。2、伪分布模式:在学习当中一般都是使用这种模式,伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程,但是却...
进入和退出安全模式 [root@localhost bin]# ./hdfs dfsadmin -safemode enter15/08/03 07:26:24 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where ......