240 私信
这个人很懒,暂无签名信息
0

hadoop完全分布式集群搭建全部流程之二:伪分布式搭建

一:Hadoop运行模式1)官方网址(1)官方网站:http://hadoop.apache.org/(2)各个版本归档库地址https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/(3)hadoop2.7.2版本详情介绍http://hadoop.apache.org/docs/r2.7.2/2)Hadoop运行模式(1)本地模式(默...

0

hadoop完全分布式集群搭建全部流程之一:hadoop和java安装

1.在linux里安装jdk1)卸载现有jdk(1)查询是否安装java软件:rpm -qa|grep java(2)如果安装的版本低于1.7,卸载该jdk:rpm -e软件包2)用filezilla工具将jdk、Hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面 直接用crt即可:alt+p,直接传输 或者安装rz,sz命令上传下载文件,这样不需要借出工具...

0

Hive性能调优之严格模式(4)

Hive提供了一个严格模式,可以防止用户执行高危的查询。通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。<property> <name>hive.mapred.mode</name> <value>st...

0

Hive性能调优之数据倾斜(2)

Map数<1>通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);<2>举例:a)一个大文件: 假设input目录下有1个文件a,大小为780M,那么hadoop会将该...

0

Hive性能调优之Fetch抓取(1)

我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。但是Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xm...

个人介绍
暂无介绍