spark job运行原理是什么？_大数据

2条回答

息红泪

2楼 · 2020-05-25 09:06

一：Ｓｐａｒｋ集群部署

二：Ｊｏｂ提交解密

三：Ｊｏｂ生成和接受

四：Ｔａｓｋ的运行

五：再论ｓｈｕｆｆｌｅ

１，从ｓｐａｒｋ　Ｒｕｎｔｉｍｅ　的角度讲来讲有５大核心对象：Ｍａｓｔｅｒ　，　Ｗｏｒｋｅｒ　，　Ｅｘｅｃｕｔｏｒ　，Ｄｒｉｖｅｒ　，　ＣｏａｒｓｅＧｒａｉｎｅｄＥｘｅｃｕｔｏｒｂａｃｋｅｄ　；

２，Ｓｐａｒｋ　在做分布式集群系统的设计的时候，最大化功能的独立，模块化封装具体的独立的对象，强内聚低耦合　　　（耦合性也称块间联系，指软件系统结构中各模块间相互联系紧密程度的一种度量。模块之间联系越紧密，其耦合性就越强，模块的独立性则越差。模块间耦合高低取决于模块间接口的复杂性、调用的方式及传递的信息。内聚性又称块内联系。指模块的功能强度的度量，即一个模块内部各个元素彼此结合的紧密程度的度量。若一个模块内各元素（语名之间、程序段之间）联系的越紧密，则它的内聚性就越高。）

３，当Ｄｒｉｖｅｒ中的ｓｐａｒｋＣｏｎｔｅｘｔ　初始化的时候会提交程序给Ｍａｓｔｅｒ，Ｍａｓｔｅｒ如果接受该程序在ｓｐａｒｋ中运行的话，就会为当前程序分配ＡｐｐＩＤ　，同时分配计算资源，需要特备注意的是：　Ｍａｓｔｅｒ是根据当前程序的配置信息来给集群中的Ｗｏｒｋｅｒ发指令来分配具体的计算资源。但是，Ｍａｓｔｅｒ发指令后并不关心具体的计算资源是否已经分配，转过来说，Ｍａｓｔｅｒ发出指令后就记录了分配的资源，以后客户端再次提交其他程序的话就不能使用该资源啦，其弊端是可能会导致其他要提交的程序无法分配到本来应该可以分配到的计算资源。最终优势在ｓｐａｒｋ分布式系统功能弱耦合的基础上最快的运行系统（否则如果Ｍａｓｔｅｒ要等到计算资源最终分配成功后才通知Ｄｒｉｖｅｒ的话，会造成Ｄｒｉｖｅｒ的阻塞，不能够最大化的并行计算资源的利用率）　　（低耦合　：　不关心指令发送成功还是失败）　　（快是对Ｄｒｉｖｅｒ　而言）

补充说明的是：　Ｓｐａｒｋ默认程序是排队的，Ｓｐａｒｋ默认的情况下由于集群中一般都只有一个Ａｐｐｌｉｃａｔｉｏｎ在运行，所有Ｍａｓｔｅｒ分配计算资源策略就没有那么明显啦）

二　：　Ｊｏｂ提交过程　源码解密

１，一个非常重要的技巧通过在Ｓｐａｒｋ－ｓｈｅｌｌ　中运行一个Ｊｏｂ来了解Ｊｏｂ提交的过程，然后再次用源码验证。

这个过程　　：　

　　ｓｃ．ｔｅｘｔＦｉｌｅ（＂ｌｉｂｒａｒｙ／ｄａｔａ１＂）．ｆｌａｔＭａｐ（＿．ｓｐｌｉｔ（＂＂））．ｍａｐ（ｗｏｒｄ　＝＞　（ｗｏｒｄ，１））．ｒｅｄｕｃｅＢｙＫｅｙ（＿＋＿）ｓａｖｅＡｓＴｅｘｔＦｉｌｅ（＂／ｌｉｂｒａｒｙ／ｄａｔａ２＂）

２，在Ｓｐａｒｋ中所有的Ａｃｔｉｏｎ都会触发一个至少一个Ｊｏｂ，在上述代码中通过ｓａｖａＡｓＴｅｘｔＦｉｌｅ来触发Ｊｏｂ的

３.ＳｐａｒｋＣｏｎｔｅｘｔ　在实例化的时候会构造ＳｐａｒｋＤｅｐｌｏｙＳｈｅｄｕｌｅｒＢａｃｋｅｎｄ（ｄｅｐｌｏｙ　：　配置，部署），ＤＡＧＳｃｈｅｄｕｌｅｒ，ＴａｓｋＳｈｅｄｕｌｅｒＩｍｐｌ（Ｉｍｐｌ　：接口），MapOutputTrackerMaster（Tracker ：追踪）等对象：

（1）SparkDeploySchedulerBackend负责集群计算资源的管理和调度。

（2）DAGScheduler ：负责高层调度（例如： Job中stage的划分，数据本地性等内容）

（3）TaskShedulerImpl : 负责具体stage内部的底层调度（例如：每个Task的调度，Task容错等等）

（4）MapOutputTrackerMaster：负责shuffle中数据的输出和读取的管理。

4，TaskSchedulerImpl内部的调度：

三：Ｔａｓｋ　的运行解密：

１，Ｔａｓｋ运行在Ｅｘｅｃｕｔｏｒ中，而Ｅｘｅｃｕｔｏｒ又是位于ＣｏａｒｓｅＧｒａｉｎｅｄＥｘｅｃｕｔｏｒＢａｃｋｅｎｄ中的且ＣｏａｒｓｅＧｒａｉｎｅｄＥｘｅｃｕｔｏｒＢａｃｋｅｎｄ和Ｅｘｅｃｕｔｏｒ是一一对应的：

２，单ＣｏａｒｓｅＧｒａｉｎｅｄＥｘｅｃｕｔｏｒＢａｃｋｅｎｄ接受到ＴａｓｋＳｅｔＭａｎａｇｅｒ发过来的ＬａｕｎｃｈＴａｓｋ的消息后会反序列化ＴａｓｋＤｅｓｃｒｉｐｔｉｏｎ，然后使用ＣｏａｒｓｅＧｒａｉｎｅｄＥｘｅｃｕｔｏｒＢａｃｋｅｎｄ中唯一的Ｅｘｅｃｕｔｏｒ来执行任务

case LaunchTask(data) =>

if (executor == null) {

logError(“Received LaunchTask command but executor was null”)

System.exit(1)

} else {

val taskDesc = ser.deserializeTaskDescription

logInfo(“Got assigned task ” + taskDesc.taskId)

executor.launchTask(this, taskId = taskDesc.taskId, attemptNumber = taskDesc.attemptNumber,

taskDesc.name, taskDesc.serializedTask)

}

发消息要么是ｃａｓｅ　ｃｌａｓｓ　或者　ｃａｓｅ　ｏｂｊｅｃｔ（是唯一的）每次生成类的事例

小冰块儿

3楼 · 2020-05-25 09:20

Spark作业的运行基本原理如下图所示：

我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。提交作业的节点称为Master节点，Driver进程就是开始执行你Spark程序的那个Main函数（Driver进程不一定在Master节点上）。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。

Driver进程本身会根据我们设置的参数，占有一定数量的内存和CPU core。而Driver进程要做的第一件事情，就是向集群管理器申请运行Spark作业需要使用的资源，这里的资源指的就是Executor进程。YARN集群管理器会根据我们为Spark作业设置的资源参数，在各个工作节点Worker上，启动一定数量的Executor进程，每个Executor进程都占有一定数量的内存和CPU core。

在申请到了作业执行所需的资源之后，Driver进程就会开始调度和执行我们编写的作业代码了。Driver进程会将我们编写的Spark作业代码分拆为多个stage，每个stage执行一部分代码片段，并为每个stage创建一批task，然后将这些task分配到各个Executor进程中执行。task是最小的计算单元，负责执行一模一样的计算逻辑（也就是我们自己编写的某个代码片段），只是每个task处理的数据不同而已。一个stage的所有task都执行完毕之后，会在各个节点本地的磁盘文件中写入计算中间结果，然后Driver就会调度运行下一个stage。下一个stage的task的输入数据就是上一个stage输出的中间结果。如此循环往复，直到将我们自己编写的代码逻辑全部执行完，并且计算完所有的数据，得到我们想要的结果为止。

【Spark】spark job运行原理是什么？

相关问题推荐

等你来答

热门问答

相关文章

【Spark】spark job运行原理是什么？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间