flink流的connect 和 union 的区别_大数据

2条回答

2楼 · 2020-08-27 14:32

join：

1 可用于DataStream和DataSet。只能2个DataStream一起join，或者2个DataSet一起join

2 用于DataStream时返回是JoinedStreams ,用于DataSet时返回是JoinOperatorSets

3 用于DataStream时需要与窗口同时使用，语法是：join where equalTo window apply ，用于DataSet时的语法是：join where equalTo with （where是指定第一个输入的分区字段，equalTo是指定第二个输入的分区字段，这2个字段类型需要一致）

4 与SQL中的inner join同义，只输出2个实时窗口内或2个数据集合内能匹配上的笛卡尔积，不能匹配上的不输出。

5 apply方法中或with方法中均可以使用JoinFunction或 FlatJoinFunction处理匹配上的数据对（用于DataStream和DataSet时均可）

6 侧重对2个输入里的数据对进行处理，join方法的入参是单个数据

7 可以join2个类型不同的流或join2个类型不同的数据集（比如Tuple2 join Tuple2）,但是匹配的key或field类型要一致，不然报错（比如where中的String与equalTo中的String匹配才行）

Flink,join双流，join实例，java版本

Flink,join DataSet数据集，join实例，java版本

coGroup：

1 可用于DataStream和DataSet。只能2个DataStream一起coGroup，或者2个DataSet一起coGroup

2 用于DataStream时返回是CoGroupedStreams，用于DataSet时返回是CoGroupOperatorSets

3 用于DataStream时需要与窗口同时使用，语法是：coGroup where equalTo window apply ，用于DataSet时的语法是：coGroup where equalTo with,

4 把2个实时窗口内或2个数据集合内key相同的数据分组同一个分区，key不能匹配上的数据（只在一个窗口或集合内存在的数据）也分组到另一个分区上。

5 apply方法中或with方法中均可以使用CoGroupFunction对数据分组（用于DataStream和DataSet时均可，无FlatCoGroupFunction）

6 侧重对2个输入的集合进行处理，coGroup方法的入参是Iterable类型

7 可以coGroup2个类型不同的流或coGroup2个类型不同的数据集（比如Tuple2 join Tuple2）,但是匹配的key或field类型要一致，不然报错（比如where中的String与equalTo中的String匹配才行）

Flink,coGroup双流，coGroup实例，java版本

Flink,coGroup DataSet数据集，coGroup实例，java版本

connect:

1 只能用于DataStream,返回是ConnectedStreams。不能用于DataSet.

2 只能2个流一起connect（stream1.connect(stream2)）

3 connect后可以对2个流分别处理（使用CoMapFunction或CoFlatMapFunction）

4 可以connect2个类型不同的流（比如Tuple2 connect Tuple2）

Flink,connect双流，connect实例，java版本

union:

1 用于DataStream时,返回是Datastream;用于DataSet时,返回是DataSet;

2 可以多个流一起合并（stream1.union(stream2,stream3,stream4)），合并结果是一个新Datastream；只能2个DataSet一起合并，合并结果是一个新DataSet

3 无论是合并Datastream还是合并DataSet，都不去重，2个源的消息或记录都保存。

4 不可以union 2个类型不同的流或union 2个类型不同的数据集

Flink,union双流，union实例，java版本

Flink,union DataSet数据集，union实例，java版本

---------------------------------更多精辟的见解可见下方----------------------------------

https://www.jianshu.com/p/aa7d0f6d0dc4

1 ：

ConnectedStreams

在 DataStream 上有一个 union 的转换 dataStream.union(otherStream1, otherStream2, ...)，用来合并多个流，新的流会包含所有流中的数据。union 有一个限制，就是所有合并的流的类型必须是一致的。ConnectedStreams 提供了和 union 类似的功能，用来连接两个流，但是与 union 转换有以下几个区别：

ConnectedStreams 只能连接两个流，而 union 可以连接多于两个流。
ConnectedStreams 连接的两个流类型可以不一致，而 union 连接的流的类型必须一致。
ConnectedStreams 会对两个流的数据应用不同的处理方法，并且双流之间可以共享状态。这在第一个流的输入会影响第二个流时, 会非常有用。

如下 ConnectedStreams 的样例，连接 input 和 other 流，并在input流上应用map1方法，在other上应用map2方法，双流可以共享状态（比如计数）。

val input: DataStream[MyType] = ...val other: DataStream[AnotherType] = ...val connected: ConnectedStreams[MyType, AnotherType] = input.connect(other)val result: DataStream[ResultType] =connected.map(new CoMapFunction[MyType, AnotherType, ResultType]() {override def map1(value: MyType): ResultType = { ... }override def map2(value: AnotherType): ResultType = { ... }})

当并行度为2时，其执行图如下所示：

http://wuchong.me/blog/2016/05/20/flink-internals-streams-and-operations-on-streams/

2：

union

在DataStream上使用union算子可以合并多个同类型的数据流，并生成同类型的数据流，即可以将多个DataStream[T]合并为一个新的DataStream[T]。数据将按照先进先出（First In First Out）的模式合并，且不去重。下图union对白色和深色两个数据流进行合并，生成一个数据流。

union示意图

假设股票价格数据流来自不同的交易所，我们将其合并成一个数据流：

val shenzhenStockStream: DataStream[StockPrice] = ...val hongkongStockStream: DataStream[StockPrice] = ...val shanghaiStockStream: DataStream[StockPrice] = ...val unionStockStream: DataStream[StockPrice] = shenzhenStockStream.union(hongkongStockStream, shanghaiStockStream)复制代码

connect

union虽然可以合并多个数据流，但有一个限制，即多个数据流的数据类型必须相同。connect提供了和union类似的功能，用来连接两个数据流，它与union的区别在于：

connect只能连接两个数据流，union可以连接多个数据流。
connect所连接的两个数据流的数据类型可以不一致，union所连接的两个数据流的数据类型必须一致。
两个DataStream经过connect之后被转化为ConnectedStreams，ConnectedStreams会对两个流的数据应用不同的处理方法，且双流之间可以共享状态。

connect经常被应用在对一个数据流使用另外一个流进行控制处理的场景上，如下图所示。控制流可以是阈值、规则、机器学习模型或其他参数。

对一个数据流进行控制处理

对于ConnectedStreams，我们需要重写CoMapFunction或CoFlatMapFunction。这两个接口都提供了三个泛型，这三个泛型分别对应第一个输入流的数据类型、第二个输入流的数据类型和输出流的数据类型。在重写函数时，对于CoMapFunction，map1处理第一个流的数据，map2处理第二个流的数据；对于CoFlatMapFunction，flatMap1处理第一个流的数据，flatMap2处理第二个流的数据。Flink并不能保证两个函数调用顺序，两个函数的调用依赖于两个数据流数据的流入先后顺序，即第一个数据流有数据到达时，map1或flatMap1会被调用，第二个数据流有数据到达时，map2或flatMap2会被调用。

LERRR

3楼 · 2021-11-18 14:50