Spark job是怎么被调度执行的？_Java

1条回答

那些年很冒险的梦。

2楼 · 2020-05-25 09:48

资源调度

1、启动Master和备用Master（如果是高可用集群需要启动备用Master，否则没有备用Master）。

2、启动Worker节点。Worker节点启动成功后会向Master注册。在works集合中添加自身信息。

3、在客户端提交Application，启动spark-submit进程。伪代码：spark-submit --master --deploy-mode cluster --class jarPath

4、Client向Master为Driver申请资源。申请信息到达Master后在Master的waitingDrivers集合中添加该Driver的申请信息。

5、当waitingDrivers集合不为空，调用schedule()方法，Master查找works集合，在符合条件的Work节点启动Driver。启动Driver成功后，waitingDrivers集合中的该条申请信息移除。Client客户端的spark-submit进程关闭。

（Driver启动成功后，会创建DAGScheduler对象和TaskSchedule对象）

6、当TaskScheduler创建成功后，会向Master会Application申请资源。申请请求发送到Master端后会在waitingApps集合中添加该申请信息。

7、当waitingApps集合中的元素发生改变，会调用schedule()方法。查找works集合，在符合要求的worker节点启动Executor进程。

8、当Executor进程启动成功后会将waitingApps集合中的该申请信息移除。并且向TaskSchedule反向注册。此时TaskSchedule就有一批Executor的列表信息。

任务调度

9、根据RDD的宽窄依赖，切割job，划分stage。每一个stage是由一组task组成的。每一个task是一个pipleline计算模式。

10、TaskScheduler会根据数据位置分发task。（taskScheduler是如何拿到数据位置的？？？TaskSchedule调用HDFS的api，拿到数据的block块以及block块的位置信息）

11、TaskSchedule分发task并且监控task的执行情况。

12、若task执行失败或者挣扎。会重试这个task。默认会重试三次。

13、若重试三次依旧失败。会把这个task返回给DAGScheduler，DAGScheduler会重试这个失败的stage（只重试失败的这个stage）。默认重试四次。

14、告诉master，将集群中的executor杀死，释放资源。

相关问题推荐

execute，executeQuery，exec2020-06-04 10:58

回答 2

Statement的execute(String query)方法用来执行任意的SQL查询，如果查询的结果是一个ResultSet，这个方法就返回true。如果结果不是ResultSet，比如insert或者update查询，它就会返回false。我们可以通过它的getResultSet方法来获取ResultSet，或者通过getUpda...
学编程真的需要经常加班么？2020-05-18 17:41

回答 22

忙的时候项目期肯定要加班但是每天加班应该还不至于
学Java的人太多了，现在学Java还好找工作吗？2020-03-18 16:57

回答 108

已采纳

虽然Java人才越来越多，但是人才缺口也是很大的，我国对JAVA工程师的需求是所有软件工程师当中需求大的，达到全部需求量的60%-70%，所以Java市场在短时间内不可能饱和。其次，Java市场不断变化，人才需求也会不断增加。马云说过，未来的制造业要的不是石油，...
工信部证书的含金量如何？2020-05-11 11:08

回答 5

已采纳

工信部证书含金量较高。工信部是国务院的下属结构，具有发放资质、证书的资格。其所发放的证书具有较强的权威性，在全国范围内收到认可，含金量通常都比较高。工信部证书，其含义也就是工信部颁发并承认的某项技能证书，是具有法律效力的，并且是国家认可的...
学java有好找工作么？2020-08-13 18:38

回答 70

已采纳

学Java好不好找工作？看学完Java后能做些什么吧。一、大数据技术Hadoop以及其他大数据处理技术都是用Java或者其他，例如Apache的基于Java 的 HBase和Accumulo以及ElasticSearchas。但是Java在此领域并未占太大空间，但只要Hadoop和ElasticSearchas能够成长壮...
java中的八股文指的是什么？2021-05-17 08:45

回答 16

已采纳

就是java的基础知识啊，比如Java 集合框架；Java 多线程；线程的五种状态；Java 虚拟机；MySQL （InnoDB）；Spring 相关；计算机网络；MQ 消息队列诸如此类
#{}和${}的区别是什么？2020-06-15 09:21

回答 12

#{}和${}这两个语法是为了动态传递参数而存在的，是Mybatis实现动态SQL的基础，总体上他们的作用是一致的（为了动态传参），但是在编译过程、是否自动加单引号、安全性、使用场景等方面有很多不同，下面详细比较两者间的区别：1.#{} 是占位符：动态解析 ...
专科做java可以就业吗？2021-08-19 16:15

回答 62

没问题的，专科学历也能学习Java开发的，主要看自己感不感兴趣，只要认真学，市面上的培训机构不少都是零基础课程，能跟得上，或是自己先找些资料学习一下。
单例可能被破坏的场景有哪些？单例模式 2022-05-07 18:07

回答 4

1、反射对单例模式的破坏采用反射的方式另辟蹊径实例了该类，导致程序中会存在不止一个实例。解决方案其思想就是采用一个全局变量，来标记是否已经实例化过了，如果已经实例化过了，第二次实例化的时候，抛出异常2、clone()对单例模式的破坏当需要实现单例的...
单例模式的优缺点 单例模式 2022-05-07 18:04

回答 5

优点: 一、实例控制单例模式会阻止其他对象实例化其自己的单例对象的副本，从而确保所有对象都访问唯一实例。二、灵活性因为类控制了实例化过程，所以类可以灵活更改实例化过程。缺点: 一、开销虽然数量很少，但如果每次对象请求引用时都要...
哈希表的p怎么取得 哈希表 2022-04-20 18:51

回答 4

这个主要是看你数组的长度是多少，比如之前写过的一个程序有个数组存的是各个客户端的ip地址：string clientIp[4]={XXX, xxx, xxx, xxx};这个时候如果想把hash值对应到上面四个地址的话，就应该对4取余，这个时候p就应该为4...
哈希表的key存在什么地方 哈希表 2022-04-20 18:51

回答 6

哈希表的大小 · 关键字的分布情况 · 记录的查找频率 1.直接寻址法：取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b，其中a和b为常数（这种散列函数叫做自身函数）。...
为什么哈希表的长度应该是质数？哈希表 2022-04-02 16:41

回答 6

哈希表的大小取决于一组质数,原因是在hash函数中,你要用这些质数来做模运算(%)。而分析发现,如果不是用质数来做模运算的话,很多生活中的数据分布,会集中在某些点上。所以这里最后采用了质数做模的除数。因为用质数做了模的除数,自然存储空间的大小也用质数了...
哈希表的实现需要预先开启出一块内存空间？哈希表 2022-04-02 16:07

回答 2

是啊，哈希函数的设计至关重要,好的哈希函数会尽可能地保证计算简单和散列地址分布均匀,但是,我们需要清楚的是,数组是一块连续的固定长度的内存空间
哈希表优化的方法有哪些？哈希表 2022-04-01 18:53

回答 3

解码查表优化算法，seo优化
哈希表的原理是什么？哈希表 2022-04-01 18:52

回答 5

1.对对象元素中的关键字(对象中的特有数据),进行哈希算法的运算,并得出一个具体的算法值,这个值称为哈希值。2.哈希值就是这个元素的位置。3.如果哈希值出现冲突,再次判断这个关键字对应的对象是否相同。如果对象相同,就不存储,因为元素重复。如果对象不同,就...

没有解决我的问题，去提问

Spark job是怎么被调度执行的？

相关问题推荐

等你来答

热门问答

相关文章

Spark job是怎么被调度执行的？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间