0

Spark性能优化 (2) | 算子调优

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

Spark性能优化 (1) | 常规性能调优

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

hdfs读写文件核心流程详解巧说

一.hdfs写数据流程(面试重点)1)客户端(fs)向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分...

0

编译Hadoop源码全流程讲解

为什么需要编译Hadoop源码? 因为hadoop官网只提供了32位,若想用64的,需要自己编译,或者下载别人已经编译好的版本。1前期准备工作1)CentOS联网,全程大概需要40分钟,[root@hadoop101桌面]# vi /etc/sysconfig/network-scripts/ifc...

0

hadoop集群常见的报错原因

Hadoop集群常见报错原因1)防火墙没关闭、或者没有启动yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip地址配置错误4)ssh没有配置好,主机之...

0

往hive中导入文件后查看出现中文乱码

往hive中导入.txt或者.csv文件,导入没有报错,导入后通过查询界面发现,中文字段出现乱码的情况。因为Hive默认是所有文件都是UTF-8的(utf-8本身支持中文没有问题的。hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是一般我们导入的文件都...

0

Hive中压缩使用详解与性能分析

HIVE底层是hdfs和mapreduce实现存储和计算的。所以HIVE可以使用hadoop自带的InputFormat和Outputformat实现从不同的数据源读取文件和写出不同格式的文件到文件系统中。同理,HIVE也可以使用hadoop配置的压缩方法对中间结果或最终数据进行压缩。1.什么是压缩...

0

Hive内置的算术运算符与逻辑运算符

一.Hive内置算术运算符1. 加法操作: +语法: A + B操作类型:所有数值类型说明:返回A与B相加的结果。结果的数值类型等于A的类型和B的类型的最小父类型(详见数据类型的继承关系)。比如,int + int 一般结果为int类型,而int + double 一般结果为double类型举......

0

Hive内嵌字符处理函数:get_json_object,parse_url

1.Hive内嵌函数对Json字符和网址的解析处理Return TypeName(Signature)Descriptionstringparse_url(string urlString, string partToExtract [, string keyToExtract])Returns t...

0

大多数开发人员都弄错的Hive与MapReduce小文件合并问题

近来我们公司搞小文件治理(小于10Mb),小文件太多的危害就不此赘述了。公司的开发人员提供的合并小文件治理配置如下:--设置小文件合并 sethive.merge.mapfiles=true; sethive.merge.mapredfiles=true; sethive.merge.size...

0

数据仓库常见建模方法与建模实例演示

1.数据仓库建模的目的? 为什么要进行数据仓库建模?大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在 性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑访问性能:能够快速查询所需的数据,减少数据I/O数据成本:减少不...

0

学习方法-费曼学习法

你是否曾幻想读一遍书就记住所有的内容?是否想学习完一项技能就马上达到巅峰水平?除非你是天才,不然这是不可能的。对于大多数的普通人来说,可以通过笨办法(死记硬背)来达到学习的目的,但效率低下。当然,也可以通过优秀的学习法来进行学习,比如今天讲...

0

如何建立闭环的笔记体系

之前做笔记的过程中遇到了问题,当我尝试把我全部的笔记都记录到 VNote 当中,发现很困难,也是不可能的。所以百度+谷歌了很久形成了这篇文章,主要由以下几个问题VNote并不是全能的,它有它的优势,强大的编辑功能(得益于Markdown),便利的分享(导出)功能,但...

0

知识爆炸的时代如何学习

在知识爆炸的时代,知识更新太快,据美国詹姆斯马丁的测算,在近十年人类知识总量已达到三年翻一番,到2020年甚至要达到每73天翻番的空前速度。同时21世纪,人类的寿命普遍会大幅度提高,基本可以达到百岁,对于目前60岁就退休的人而言,在未来你还有40年的时...

1

编程到底该怎么学

这篇文章部分内容摘抄自网络,写这篇文章的原因是:最近在群里看到很多朋友提问题,本来这是好事,但是问的哪些问题,我在视频教程中明明已经讲过了,这只能说他压根就没看教程,所以我才整理了此文对于入门阶段,对知识水平的要求并不算高,或者说很低,首先...