hadoop相关问题_Hadoop

1条回答

2楼 · 2021-04-28 15:51

1、jar包执行出错，提示“class wordcount.WordCountMapper not found”

错误原因：在run()代码中没有定义setJarByClass
解决方法：在wordcountJob.java中增加 job.setJarByClass(getClass());

2、jar包执行出错，提示“exception in thread “main” java.lang.ClassNotFound"
错误原因：
1）build.gradle文件project.ext.mainclass配置错误
解决方法：重新配置文件夹的build.gradle文件，把project.ext.mainclass配置为packageName.mainClassName（packageName与mainClassName用实际名称替换，如’wordcount.WordCountJob’）
2）源代码的source folder文件夹结构错误。
解决方法：source folder需要严格配置为src/main/java，package放在source folder里面，class放在package下面。
注意：
- eclipse编译jar包时候，需要读取build.gradle内容。在build.gradle的mainclass中，packageName与mainClassName需要与实际包、类名称一致。
- source folder文件夹结构必须为src/main/java。
- 各class（非inner class）名称需要与该代码的文件名一致。

3、jar包执行出错，提示“Java.lang.NullPointerException”
错误原因：相关类没有实例化。在错误日志中，“at wordcount.WordCount.Mapper.Map(WordCountMapper.java:26)”指示第26行outputValue没有初始化（代码中仅仅声明private IntWritable outputValue;，没有用new IntWritable()分配存储空间)，但后面代码直接使用set方法（outputValue.set），导致意外。
解决方法：在outputValue声明时候，增加new内存分配（private intWritable outputValue = new IntWritable();）

4、jar包执行结果关键counter
FILE_BYTES_READ     //job读取本地文件系统的文件字节数。假定我们当前map的输入数据都来自于HDFS，那么在map阶段，这个数据应该是0。但reduce在执行前，它的输入数据是经过shuffle的merge后存储在reduce端本地磁盘中，所以这个数据就是所有reduce的总输入字节数。
FILE_BYTES_WRITTEN      //map的中间结果都会spill到本地磁盘中，在map执行完后，形成最终的spill文件。所以map端这里的数据就表示map task往本地磁盘中总共写了多少字节。与map端相对应的是，reduce端在shuffle时，会不断地拉取map端的中间结果，然后做merge并不断spill到自己的本地磁盘中。最终形成一个单独文件，这个文件就是reduce的输入文件。
HDFS_BYTES_READ      //整个job执行过程中，只有map端运行时，才从HDFS读取数据，这些数据不限于源文件内容，还包括所有map的split元数据。所以这个值应该比FileInputFormatCounters.BYTES_READ 要略大些。
HDFS_BYTES_WRITTEN      //Reduce的最终结果都会写入HDFS，就是一个job执行结果的总量。
Combine input records     //Combiner是为了减少尽量减少需要拉取和移动的数据，所以combine输入条数与map的输出条数是一致的。
Combine output records   //经过Combiner后，相同key的数据经过压缩，在map端自己解决了很多重复数据，表示最终在map端中间文件中的所有条目数
Failed Shuffles      //copy线程在抓取map端中间数据时，如果因为网络连接异常或是IO异常，所引起的shuffle错误次数
GC time elapsed(ms)      //通过JMX获取到执行map与reduce的子JVM总共的GC时间消耗
Map input records      //所有map task从HDFS读取的文件总行数
Map output records      //map task的直接输出record是多少，就是在map方法中调用context.write的次数，也就是未经过Combine时的原生输出条数
Map output bytes      //Map的输出结果key/value都会被序列化到内存缓冲区中，所以这里的bytes指序列化后的最终字节之和
Merged Map outputs      //记录着shuffle过程中总共经历了多少次merge动作
Reduce input groups      //Reduce总共读取了多少个这样的groups
Reduce input records     //如果有Combiner的话，那么这里的数值就等于map端Combiner运算后的最后条数，如果没有，那么就应该等于map的输出条数

相关问题推荐

【Hadoop】如何在hdfs根目录下创建文件夹 HDFS客户端操作 2020-11-06 18:51

回答 10

创建test文件夹hadoop fs -mkdir /test
【大数据基础】hadoop的三大组件及其作用是什么 Hadoop 2020-12-27 15:27

回答 7

Hadoop的三大核心组件分别是：1、HDFS(Hadoop Distribute File System)：hadoop的数据存储工具。2、YARN(Yet Another Resource Negotiator,另一种资源协调者)：Hadoop 的资源管理器。3、Hadoop MapReduce:分布式计算框架。HDFS是一个高度容错性的系统，适合部...
【hbase基础】hbase依靠什么存储底层数据 HBase 2020-12-12 09:46

回答 18

hbase依靠HDFS来存储底层数据。Hadoop分布式文件系统(HDFS)为HBase提供了高可靠性的底层存储支持，HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。
【大数据基础】hbase数据库特点 HBase 2020-12-27 15:54

回答 24

HBase分布式数据库具有如下的显著特点：容量大：HBase分布式数据库中的表可以存储成千上万的行和列组成的数据。面向列：HBase是面向列的存储和权限控制，并支持独立检索。列存储，其数据在表中是按照某列存储的，根据数据动态的增加列，并且可以单独对列进行...
Hadoop和Spark的相同点和不同点？2021-04-06 19:14

回答 19

解决问题的层面不一样首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务...
【大数据基础】hbase和redis的区别是什么 HBase 2020-12-27 15:31

回答 14

1、HBase写快读慢，HBase的读取时长通常是几毫秒，而Redis的读取时长通常是几十微秒。性能相差非常大。2、HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰富的类型。3、Redis支持的数据量通常受内存限制，而HBase没有这个限制，可以存储远超内存大小...
【hbase基础】hbase是列式存储吗 HBase 2020-12-12 09:45

回答 15

列式存储格式是指以列为单位存储数据的数据存储格式，相比于传统的行式存储格式，它具有压缩比高、读I/O少(此处指可避免无意义的读I/O)等优点，目前被广泛应用于各种存储引擎中。对于HBase而言，它并不是一个列式存储引擎，而是列簇式存储引擎，即同一列簇中...
【Hadoop】hadoop分布式是什么 Hadoop 2020-11-06 18:50

回答 14

一、简单理解Hadoop是一个大象：一个hadoop集群主要包含三个主要的模块：Mapreduce,hdfs,yarn。mapreduce是一个分离在合并的计算框架，注意他不是一个集群，而是一个编程框架。hdfs是一个分布式文件系统，是一个分布式集群，用于存放数据。yarn集群是负责集群...
常用的数据采集引擎有哪些？2021-06-28 19:22

回答 12

01 网络公开数据集02 数据报采集03 网络爬虫04 日志收集05 社会调查06 业务数据集07 埋点采集08 传感器采集09 数据交易平台10 个人数据收集
Hadoop环境搭建步骤，注意事项有哪些？2021-06-10 19:09

回答 9

1 Hadoop 各个目录的解释bin：Hadoop管理脚本和使用脚本所在目录， sbin目录下的脚本都是使用此目录下的脚本实现的。etc：Hadoop的所有配置文件所在的目录，所有hadoop的配置在etc/hadoop目录下include:对外提供的库的头文件lib ：对外提供的动态编程库和静态...
hdfs存储机制是怎样的?2021-04-29 20:29

回答 4

HDFS存储机制，包括HDFS的写入过程和读取过程两个部分： 1、写入过程： 1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。2）namenode返回是否可以上传。3）客户端请求第一个 block上传到哪几个datanode服务器上。4）nam...
Shuffle 发生在哪里？2021-04-28 20:11

回答 4

adoop核心：MapReduce原理。 MR的核心是shuffle，被称为奇迹发生的地方。 shuffle，弄乱，洗牌的意思。partition 分区，sort 排序，spill溢出，disk 磁盘下面是官方对shuffle的配图： phase 阶段，fetch 最终，merge 合并...
Hadoop 的shuffle 会进行几次排序？2021-04-28 20:10

回答 2

Shuffle阶段分为两部分:Map端和Reduce端。一 map端shuffle过程；1-内存预排序：默认每个map有100M内存进行预排序（为了效率），超过阈值，会把内容写到磁盘；此过程使用快速排序算法；2-根据key和reducer的数量进行分区和排序；首先根据数据所属的Parti...
为什么Hadoop可用于大数据分析？2021-04-28 19:57

回答 3

大数据时代需要1存储大量数据2快速的处理大量数据3从大量数据中进行分析
Hadoop有哪几种模式？2021-04-27 20:20

回答 3

hadoop的四种模式。1、本地模式：本地模式就是解压源码包，不需要做任何的配置。通常用于开发调试，或者感受hadoop。2、伪分布模式：在学习当中一般都是使用这种模式，伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程，但是却...
hadoop如何进入编辑文件模式以及退出输入模式？2021-04-27 20:15

回答 1

进入和退出安全模式 [root@localhost bin]# ./hdfs dfsadmin -safemode enter15/08/03 07:26:24 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where ......

没有解决我的问题，去提问

hadoop相关问题

相关问题推荐

等你来答

热门问答

相关文章

hadoop相关问题

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间