240
收录了134篇文章 ·2568个问题 · 6人关注

大数据知识问答分享社区,提供包括Java主流框架、hadoopspark、机器学习等大数据相关学习常见问题和技术经验分享。

0

Hive开发要知道数据仓库的四个层次设计

数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。1.数据仓库的四个操作 ETL(extractiontransformation loading)负责将分散的、异...

0

Hive内置操作符之关系运算符

关系运算符比较两边的结果并返回一个结果值:TRUE或FALSE值,这取决于两边的操作数之间的比较是否有效,因为比较的两边有可能出现null值的情况。除了is null,is not null之外,null在任何关系运算符中出现结果都是null值。Hive系统自带的内置操作符和函数:HI...

0

hadoop的三种运行模式区别及配置详解

基于hadoop进行开发时,有时候,会被hadoop的三种运行模式搞混,也会被hadoop集群有哪些配置弄得晕头转向,因为看不同的文档有不同的配置方法。所以要先弄明白hadoop的运行模式,以及对应模式的有哪些必须配置,尤为重要,做到心中有数。 首先配置hadoop的...

0

hadoop完全分布式集群搭建全部流程之四:ssh和脚本补充

SSH无密码登录1)配置ssh:配置ssh无密码登录主要 是为了方便集群之间进行通信,方便运算。(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[root@hadoop2 opt]# ssh 192.168.1.103The authenticity of host &#3...

0

hadoop完全分布式集群搭建全部流程之三:完全分布式集群搭建

分析:一台机器配置安装,其他机器分发修改1)准备3台客户机(关闭防火墙、静态ip、主机名称)2)安装jdk:配置环境变量 3)安装hadoop:配置环境变量 4)安装ssh 5)编写xsync和xcall脚本6)配置集群 7)启动测试集群步骤:选定一个台机器1.在一台机...

0

hadoop完全分布式集群搭建全部流程之二:伪分布式搭建

一:Hadoop运行模式1)官方网址(1)官方网站:http://hadoop.apache.org/(2)各个版本归档库地址https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/(3)hadoop2.7.2版本详情介绍http://hadoop.apache.org/docs/r2.7.2/2)Hadoop运行模式(1)本...

0

hadoop完全分布式集群搭建全部流程之一:hadoop和java安装

1.在linux里安装jdk1)卸载现有jdk(1)查询是否安装java软件:rpm -qa|grep java(2)如果安装的版本低于1.7,卸载该jdk:rpm -e软件包2)用filezilla工具将jdk、Hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面 直接用crt即可:alt+p,直接传输 ...

0

Hive性能调优之严格模式(4)

Hive提供了一个严格模式,可以防止用户执行高危的查询。通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。<property> <name>hive.mapred.mode</name> ...

0

Hive性能调优之数据倾斜(2)

Map数<1>通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);<2>举例:a)一个大文...

0

Hive性能调优之Fetch抓取(1)

我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。但是Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取e...

0

Spark Core项目实战(1) | 准备数据与计算Top10 热门品类(附完整项目代码及注释)

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

Scala系列22:Scala泛型,非变,协变,逆变等使用详解

目录0.泛型0.1定义一个泛型方法1.泛型类1.1 泛型的上下界1.1.1 泛型|上界1.1.2泛型|下界2协变、逆变、非变2.1 非变2.2 协变2.3 逆变2.4 示例说明0.泛型scala和Java一样,类和特质、方法都可以支持泛型。我们在学习集合的时候,一般都会涉及到泛型。所以泛型,...

0

Scala系列21:Scala提取器的使用

0.提取器(Extractor)我们之前已经使用过scala中非常强大的模式匹配功能了,通过模式匹配,我们可以快速匹配样例类中的成员变量。例如:// 1. 创建两个样例类case class Person(name:String, age:Int)case class Order(id:String)def main(args: Array[String]...

0

Scala系列20:Scala中异常捕获与抛出异常

目录0.异常处理1.捕获异常2.抛出异常0.异常处理来看看下面一段代码def main(args: Array[String]): Unit = {val i = 10 / 0println("你好!")}Exception in thread "main" java.lang.ArithmeticException: / by zeroat ForDemo...

0

Scala系列19:Option类型,隐函数以及正则表达式的使用详解

目录0. Option类型0.1示例演示1.偏函数的使用1.scala中偏函数的定义2.示例说明2.Scala中正则表达式的使用2.1 语法格式2.2示例说明0. Option类型使用Option类型,可以用来有效避免空引用(null)异常。也就是说,将来我们返回某些数据时,可以返回一个Option类型...