240
收录了113篇文章 ·2521个问题 · 6人关注

大数据知识问答分享社区,提供包括Java主流框架、hadoopspark、机器学习等大数据相关学习常见问题和技术经验分享。

0

spark系列3:spark入门编程与介绍

3. Spark 入门目标通过理解 Spark 小案例, 来理解 Spark 应用理解编写 Spark 程序的两种常见方式spark-shellspark-submitSpark 官方提供了两种方式编写代码, 都比较重要, 分别如下spark-shellSpark shell 是 Spark 提供的一个基于 Scala 语言的交互式解释器, ...

2

spark系列2:spark集群的配置与使用

2. Spark 集群搭建目标从 Spark 的集群架构开始, 理解分布式环境, 以及 Spark 的运行原理理解 Spark 的集群搭建, 包括高可用的搭建方式2.1. Spark 集群结构目标通过应用运行流程, 理解分布式调度的基础概念 Spark 如何将程序运行在一个集群中?Spark 自身是没...

0

spark系列1:spark的前世今生

1.1. Spark是什么目标了解 Spark 的历史和产生原因, 从而浅显的理解 Spark 的作用Spark的历史2009 年由加州大学伯克利分校 AMPLab 开创2010 年通过BSD许可协议开源发布2013 年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.02014 年 2 月,S...

4

大数据就业如何?哪些技术必须掌握?

目前IT行业的发展蒸蒸日上,大数据开发行业作为IT行业中的一类更是前景无限。所以很多人想转行做大数据开发。那么现在大数据就业如何?哪些技术是必须掌握的?大数据行业的就业前景还是很好的,据职友集数据显示目前全国大数据相关工作岗位日招聘量达3万多条...

0

Hbase的负载均衡

Region 迁移作为一个分布式系统,分片迁移是最基础的核心功能 集群负载均衡、故障恢复等功 能都是建立在分片迁移的基础之上的 比如集群负载均衡,可以简单理解为集群中所有节点 上的分片数目保持相同 实际执行分片迁移时可以分为两个步骤:第一步,根据负载均...

1

Spark 出现的问题及其解决方案

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

一文教你快速解决Spark数据倾斜!

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

Spark性能优化 (4) | JVM 调优

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

Spark性能优化 (3) | Shuffle 调优

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

Spark性能优化 (2) | 算子调优

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

Spark性能优化 (1) | 常规性能调优

  大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处...

0

hdfs读写文件核心流程详解巧说

一.hdfs写数据流程(面试重点)1)客户端(fs)向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn...

0

编译Hadoop源码全流程讲解

为什么需要编译Hadoop源码? 因为hadoop官网只提供了32位,若想用64的,需要自己编译,或者下载别人已经编译好的版本。1前期准备工作1)CentOS联网,全程大概需要40分钟,[root@hadoop101桌面]# vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0HWAD...

0

hadoop集群常见的报错原因

Hadoop集群常见报错原因1)防火墙没关闭、或者没有启动yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip地址配置错误4)ssh没有配置好,主机之间无法无密登录,无法进行RPC通信5)root用户...

0

往hive中导入文件后查看出现中文乱码

往hive中导入.txt或者.csv文件,导入没有报错,导入后通过查询界面发现,中文字段出现乱码的情况。因为Hive默认是所有文件都是UTF-8的(utf-8本身支持中文没有问题的。hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是一般我们导入的文件都...