flink算子的数据传输 2种形式_大数据

4条回答

2楼 · 2020-08-27 09:59

具体讲一下flink中的数据传输：

在一个运行的application中，它的tasks在持续交换数据。TaskManager负责做数据传输。TaskManager的网络组件首先从缓冲buffer中收集records，然后再发送。也就是说，records并不是一个接一个的发送，而是先放入缓冲，然后再以batch的形式发送。这个技术可以高效使用网络资源，并达到高吞吐。类似于网络或磁盘 I/O 协议中使用的缓冲技术。

这里需要注意的是：传输缓冲buffer中的记录，隐含表示的是，Flink的处理模型是基于微批处理的。

每个TaskManager有一组网络缓冲池（默认每个buffer是32KB），用于发送与接受数据。如发送端和接收端位于不同的TaskManager进程中，则它们需要通过操作系统的网络栈进行交流。流应用需要以管道的模式进行数据交换，也就是说，每对TaskManager会维持一个永久的TCP连接用于做数据交换。在shuffle连接模式下（多个sender与多个receiver），每个sender task需要向每个receiver task，此时TaskManager需要为每个receiver task都分配一个缓冲区。下图展示了此架构：

在上图中，有四个sender 任务，对于每个sender，都需要有至少四个network buffer用于向每个receiver发送数据。每个receiver都需要有至少四个buffer用于接收数据。TaskManager之间的buffer以多路复用的方式使用同一网络连接。为了提供平滑的数据管道型的数据交换，一个TaskManager必须能提供足够的缓冲，以服务所有并行的出入连接。对于shuffle或broadcast 连接，每个发送任务和每个接受任务之间都需要一个buffer。Flink的默认网络缓冲配置足够适用与小型与中型的集群任务。对于大型的集群任务，需要对此配置进行调优。

若sender与receiver任务都运行在同一个TaskManager进程，则sender任务会将发送的条目做序列化，并存入一个字节缓冲。然后将缓冲放入一个队列，直到队列被填满。Receiver任务从队列中获取缓冲，并反序列化输入的条目。所以，在同一个TaskManager内，任务之间的数据传输并不经过网络交互。

Flink采用了不同的技术用于减少tasks之间的沟通成本。在接下来的部分中，我们会讨论基于积分的（credit-based ）流控制与任务链（task chaining）。

我的网名不再改

3楼 · 2020-08-27 14:33

DataStream上游算子向下游算子发送数据的不同方式：

forward （默认）

the output elements are forwarded to the local subtask of the next operation.

上游算子某个并发直接将数据发给同一个slot中的下游算子的并发，

适用于

上下游算子并发度一致
数据没有倾斜

forward

rebalance

the output elements are distributed evenly to instances of the next operation in a round-robin fashion.

按照round-robin的方式，决定上游算子的某个并发的数据发往下游的哪个并发。该方法可以保证从上游算子到下游算子的数据是绝对均匀发送的。但是不同并发之间的数据交互存在网络传输开销。

适用于

上下游算子并发度不一致
存在数据倾斜

rebalance

shuffle

the output elements are shuffled uniformly randomly to the next operation.

按照均匀分布的随机数，决定上游算子的某个并发的数据发往下游的哪个并发。该方法与rebalance类似，但是会增加随机数生成的开销。并且因为是随机的，最后结果未必是百分百均匀的，但是概率上是均匀分布的。但是不同并发之间的数据交互存在网络传输开销。

适用于

上下游算子并发度不一致
存在数据倾斜

shuffle

rescale

the output elements are distributed evenly to a subset of instances of the next operation in a round-robin fashion.
The subset of downstream operations to which the upstream operation sends
elements depends on the degree of parallelism of both the upstream and downstream operation.
For example, if the upstream operation has parallelism 2 and the downstream operation has parallelism 4, then one upstream operation would distribute elements to two downstream operations while the other upstream operation would distribute to the other two downstream operations. If, on the other hand, the downstream operation has parallelism 2 while the upstream operation has parallelism 4 then two upstream operations will distribute to one downstream operation while the other two upstream operations will distribute to the other downstream operations.
In cases where the different parallelisms are not multiples of each other one or several downstream operations will have a differing number of inputs from upstream operations.

按照分组round-robin的方式，决定上游算子的某个并发的数据发往下游的哪个并发。比如上游算子2并发度，下游4并发度，则每1个上游算子以round robin的方式发送到下游的2个算子；反过来上游算子4并发度，下游2并发度，则2个上游算子的并发度发送到1个下游段子的并发度。如果上下游算子的并发度不成倍数关系，则有几个下游算子的并发的入度可能与其他的并发不同。相比rebalance的好处是：只有部分并发节点之间存在数据传输的开销；坏处是不能很好地解决数据倾斜的问题。

适用于

上下游算子并发度不一致（最好是整数倍）

rescale

global

the output values all go to the first instance of the next processing operator. Use this setting with care since it might cause a serious performance bottleneck in the application.

所有上游算子往下游算子的第一个并发发送

可能存在严重的性能问题，一般不用

适用于

所有结果汇总

global

broadcast

the output elements are broadcast to every parallel instance of the next operation.

所有上游算子的并发产生的数据往每个下游算子的并发发送一份，也就是每个下游算子的并发得到的数据都是全量的。一般要结合BroadcastState来使用，常用于控制流的广播

适用于

控制数据流的广播

broadcast

keyby

uses the provided key with explicit type information for partitioning its operator states.

每个上游算子的并发产生的数据中抽取key，对key进行hash后发送给对应的下游算子的并发，可以保证同一个key的数据必然发送到同一个下游算子的并发上。但是同一个下游算子可能用于处理多个不同的key，但是这些处理都是分开的

适用于

需要按照key来处理的数据。需要注意，选取key时，要尽量选取能使得数据分散的字段，比如ip、timestamp等等，不要选取如sex等区分数较少的字段

爱梦 - 拿来吧你

4楼 · 2021-10-09 09:33

算子之间传输数据的形式可以是one-to-one (forwarding)的模式也可以是redistributing 的模式，具体是哪一种形式，取决于算子的种类：

①One-to-one：stream维护着分区以及元素的顺序(比如source和map之间)。这意味着map 算子的子任务看到的元素的个数以及顺序跟source算子的子任务生产的元素的个数、顺序相同。map、fliter、flatMap等算子都是one-to-one的对应关系。

②Redistributing：stream的分区会发生改变。每一个算子的子任务依据所选择的 transformation发送数据到不同的目标任务。例如keyBy基于hashCode重分区、而 broadcast和rebalance会随机重新分区，这些算子都会引起redistribute过程，而 redistribute 过程就类似于 Spark 中的 shuffle 过程。

慢半拍

5楼 · 2021-10-09 13:48

算子之间传输数据的形式可以是one-to-one (forwarding)的模式也可以是redistributing的模式，具体是哪一种形式，取决于算子的种类。
在这里插入图片描述

One-to-one： Stream(比如在 source 和 map operator 之间)维护着分区以及元素的顺序。那意味着 map 算子的子任务看到的元素的个数以及顺序跟 source 算子的子任务生产的元素的个数、顺序相同，map、fliter、flatMap 等算子都是 one-to-one 的对应关系（类似于 spark 中的窄依赖）。
Redistributing： Stream(map()跟 keyBy/window 之间或者 keyBy/window 跟 sink 之间)的分区会发生改变。每一个算子的子任务依据所选择的 transformation 发送数据到不同的目标任务。例如，keyBy() 基于 hashCode 重分区、broadcast 和 rebalance 会随机重新分区，这些算子都会引起 redistribute 过程，而 redistribute 过程就类似于Spark 中的 shuffle 过程（类似于Spark 中的宽依赖）。

相同并行度的 one to one 操作， Flink 这样相连的算子链接在一起形成一个 task，原来的算子成为里面的一部分。将算子链接成 task 是非常有效的优化：它能减少线程之间的切换和基于缓存区的数据交换，在减少时延的同时提升吞吐量。

flink算子的数据传输 2种形式

相关问题推荐

等你来答

热门问答

相关文章

flink算子的数据传输 2种形式

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间