240
收录了13篇文章 ·192个问题 · 0人关注

Hadoop问答社区,提供从入门到进阶Hadoop学习过程中常见疑惑问题答案和技术分享,同时包括了资深编辑和热心网友的回答。


0

Hbase的负载均衡

Region 迁移作为一个分布式系统,分片迁移是最基础的核心功能 集群负载均衡、故障恢复等功 能都是建立在分片迁移的基础之上的 比如集群负载均衡,可以简单理解为集群中所有节点 上的分片数目保持相同 实际执行分片迁移时可以分为两个步骤:第一步,根据负载均...

0

hdfs读写文件核心流程详解巧说

一.hdfs写数据流程(面试重点)1)客户端(fs)向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn...

0

编译Hadoop源码全流程讲解

为什么需要编译Hadoop源码? 因为hadoop官网只提供了32位,若想用64的,需要自己编译,或者下载别人已经编译好的版本。1前期准备工作1)CentOS联网,全程大概需要40分钟,[root@hadoop101桌面]# vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0HWAD...

0

hadoop集群常见的报错原因

Hadoop集群常见报错原因1)防火墙没关闭、或者没有启动yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip地址配置错误4)ssh没有配置好,主机之间无法无密登录,无法进行RPC通信5)root用户...

0

hadoop的三种运行模式区别及配置详解

基于hadoop进行开发时,有时候,会被hadoop的三种运行模式搞混,也会被hadoop集群有哪些配置弄得晕头转向,因为看不同的文档有不同的配置方法。所以要先弄明白hadoop的运行模式,以及对应模式的有哪些必须配置,尤为重要,做到心中有数。 首先配置hadoop的...

0

hadoop完全分布式集群搭建全部流程之四:ssh和脚本补充

SSH无密码登录1)配置ssh:配置ssh无密码登录主要 是为了方便集群之间进行通信,方便运算。(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[root@hadoop2 opt]# ssh 192.168.1.103The authenticity of host &#3...

0

hadoop完全分布式集群搭建全部流程之三:完全分布式集群搭建

分析:一台机器配置安装,其他机器分发修改1)准备3台客户机(关闭防火墙、静态ip、主机名称)2)安装jdk:配置环境变量 3)安装hadoop:配置环境变量 4)安装ssh 5)编写xsync和xcall脚本6)配置集群 7)启动测试集群步骤:选定一个台机器1.在一台机...

0

怎么实现kudu表数据的导入导出

一、kudu数据导出到文件例:impala-shell -l -u xuyi --auth_creds_ok_in_clear -q "select sms_content from warehouse.restart where eventId='filtrate_inbox_sms_delete_sms' " -B --output_deli...

0

hdfs 权限管理和acl机制

HDFS的文件ACL(Access Control Lists),类似于POSIX ACL(Linux使用ACL来管理文件权限)。首先参数上要开启基本权限和访问控制列表功能,在CDH 5.2中,默认的参数dfs.namenode.acls.enabled为false。12345678<property><name>dfs.permissions.enabled</na...

0

yarn的资源调度器

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很...

0

Hive-cli与Beeline的区别

Hive-cli与Beeline的区别hive-cli 是hive连接hivesever的命令行工具,从hive出生就一直存在,但随着hive功能的增强、bug的修复、版本升级,hive-cli结构的局限性跟不上hive的发展,如果强行更改就不能满足向下兼容,就出现了全新的beeline命令行结构,即就是h...

0

Hadoop面试题及答案

一、什么是Hadoop? Hadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容: HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种...

0

Hadoop之HDFS客户端常用命令怎么做?

HDFS,是一种常用的分布式文件操作系统,要使用大数据,我们需要非常熟悉HDFS客户端操作,下面,我们一起来看下哦!1. 查看hdfs中的目录和文件信息hdfs fs -ls /hdfs路径如:hdfs fs -ls /aaa/xxx/hdfs fs -ls -R / #递归显示指定位置下的所有文件和文件夹2. ...