Big Data】使用hadoop如何让各个节点任务数均衡?

2020-06-01 14:27发布

1条回答
yangzp
2楼 · 2020-06-10 10:47

在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。

可能的原因:

  1. 突然磁盘使用率变高而文件块数并没有很大的增加,极有可能是出现某个用户的作业产生大量大的文件,排查删除掉就课可以。注意将trash中的也要删除掉

2.也有可能是长期使用造成的,请查清楚每个节点的负载情况,进行排序,然后处理。

下附balance工具的一些说明,可以参考http://blog.csdn.net/azhao_dn/article/details/7741666

1) hadoop balance工具的用法:
To start:
bin/start-balancer.sh [-threshold < threshold> ]
Example: bin/ start-balancer.sh
 start the balancer with a default threshold of 10%
 bin/ start-balancer.sh -threshold 5
start the balancer with a threshold of 5%

To stop:
bin/ stop-balancer.sh

2)影响hadoop balance工具的几个参数:

-threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可能无法到达设定的平衡参数值。

dfs.balance.bandwidthPerSec 默认设置:1048576(1 M/S),参数含义:设置balance工具在运行中所能占用的带宽,设置的过大可能会造成mapred运行缓慢

3)hadoop balance工具其他特点:

balance工具在运行过程中,迭代的将文件块从高使用率的datanode移动到低使用率的datanode上,每一个迭代过程中移动的数据量不超过下面两个值的较小者:10G或者指定阀值*容量,且每次迭代不超过20分钟。每次迭代结束后,balance工具将更新该datanode的文件块分布情况。以下为官方文档英文描述:

The tool moves blocks from highly utilized datanodes to poorly utilized datanodes
iteratively. In each iteration a datanode moves or receives no more than the lesser of 10G
bytes or the threshold fraction of its capacity. Each iteration runs no more than 20
minutes. At the end of each iteration, the balancer obtains updated datanodes information
from the namenode.


相关问题推荐

  • 回答 2

    在互联网逐渐步入大数据时代后,不可避免的为企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是可视化的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深...

  • 回答 1

    这跟年限关系并不代表,主要看技术能力,工作10年技术不行,薪资一样相对较低,毕业一年技术很牛,工资也没有上限,技术可以的话,一线城市薪资能达到5位数

  • 回答 1

    其实属于一个领域,先用大数据技术将数据进行采集、存储、计算,然后根据结果利用机器学习搞一些模型、算法进行预测,人工智能建立在这之上

  • 回答 1

      PageRank,即网页排名,又称网页级别、Google左側排名或佩奇排名。        是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十...

  • 回答 1

    是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合

  • 回答 3
    已采纳

    监督学习(supervised learning)从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和...

  • 回答 1

    分类:是已知类别时,对数据进行按标签进行划分到不同类别中,属于有监督的学习。聚类:是在没有标签的情况下,将相似的数据划分到一个类中,属于无监督的学习。

  • 回答 1

    其实这个是两个词的组合,可以拆分为TF和IDF。TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数,统计出来就是词频TF,显而易见,一个词在文章中出现很多次,那么这个词肯定有着很大的作用,但是我们自己实践的话,肯定会看到你统计出...

  • 回答 1

    余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫余弦相似性。  上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极...

  • 回答 1

    1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系。4)logistic...

  • 回答 1

    传输过程中主要防止两种数据安全考核,一种是外界数据进来使用病毒进行入侵系统获取数据,二是数据向外传输过程中进行数据泄露,关键主要是防止病毒侵入以及传输端口和ip的私密保护,主要包含以下:敏感数据发现,对外接口分析,策略集中管控,事件追踪溯源,...

  • 回答 1

    如果自己懂得技术的话,只需要搭建集群就可以了,可以使用本地电脑做服务器,也可以租用服务器,这些硬件的费用根据配置计算的,如果不懂技术还需要考虑找人的成本。总的而言,是  技术人员成本  加  设备成本...

  • 回答 1

    最重要的是带宽,你问的是什么延迟,计算延迟还是什么,问题请问清楚,一部分延迟可以提高硬件配置来解决。

  • 回答 2

    理论上是不需要的,因为术业有专攻,大数据开发人员只需要将统计结果推送到指定位置,其他人员,比如javaee人员就可以将数据提取出来,推送到前端,再由前端开发人员将结果展示在页面。但是学习多多益善,所以多学习只有百利而无一害。...

  • 大数据Big Data 2020-05-15 10:03
    回答 1

    大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶...

没有解决我的问题,去提问