flink 和spark 有什么不同，优点有哪些_大数据

3条回答

2楼 · 2020-09-15 10:16

首先它们有哪些共同点？flink和spark都是apache 软件基金会（ASF）旗下顶级项目，都是通用数据处理平台。它们可以应用在很多的大数据应用和处理环境。并且有如下扩展：

	SPARK	Flink
类SQL查询	Spark SQL	MRQL
图计算	GraphX	Spargel（基础）和Gelly（库）
机器学习	MLib	Flink ML
流计算	Spark Streaming	Flink Streaming

并且两者均可在不依赖于其他环境的情况下运行于standalone模式，或是运行在基于hadoop（YARN,HDFS)之上，由于它们均是运行于内存，所以他们表现的都比hadoop要好很多。

然而它们在实现上还是有很多不同点：

在spark 1.5.x之前的版本，数据集的大小不能大于机器的内存数。

Flink在进行集合的迭代转换时可以是循环或是迭代计算处理。这使得Join算法、对分区的链接和重用以及排序可以选择最优算法。当然flink也是一个很强大的批处理工具。flink的流式处理的是真正的流处理。流式数据一但进入就实时进行处理，这就允许流数据灵活地在操作窗口。它甚至可以在使用水印的流数中处理数据（It is even capable of handling late data in streams by the use of watermarks）。此外，flink的代码执行引擎还对现有使用storm,mapreduce等有很强的兼容性。

Spark 在另一方面是基于弹性分布式数据集（RDD），这（主要的）给于spark基于内存内数据结构的函数式编程。它可以通过固定的内存给于大批量的计算。spark streaming 把流式数据封装成小的批处理，也就是它收集在一段时间内到达的所有数据，并在收集的数据上运行一个常规批处理程序。同时一边收集下一个小的批处理数据。

Flink 有可能会替代hadoop吗？

不会，hadoop 有以下几项功能：

1、HDFS - hadoop 分布式文件系统（hadoop Distributed Filesystem)

2、YARN - Yet Another Resource Negotiator(资源管理器）

3、MapReduce - 一个hadoop批处理框架

HDFS和YARN仍旧是大数据集群中不可缺少的一部份，这两项是部署其他分布式技术的基础，如分布式查询或分布式数据库。MapReduce的主要用例是对数据集的批处理，而不是集群的RAM，而Flink则是为流和迭代处理而设计的。所以hadoop和flink能共存。即使如此，我还是强烈推荐更强大的，对批处理更易用的flink.

敦敦宁

3楼 · 2020-09-15 10:22

Spark缺点

无论是 Spark Streaming还是 Structured Streaming,
Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。
这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流
处理看作是批处理的一种特殊形式,每次接收到一个时间间隔的数据才会去处理,所以天生很难在实时性上有所提升。
虽然在 Spark2.3中提出了连续处理模型( Continuous Processing Model),但是现在只支持
很有限的功能,并不能在大的项目中使用。 Spark还需要做出很大的努力才能改进现有的流处理模型想要在流处理的实时性上提升,就不能継续用微批处理的模式,而要想办法实现真正的流处理即每当有一条数据输入就立刻处理,不做等待。

Flink

采用了基于操作符（Operator）的连续流模型，可以做到微秒级别的延迟。

Flink 核心模型简介

Flink最核心的数据结构是Stream，它代表一个运行在多分区上的并行流。
在 Stream 上同样可以进行各种转换操作（Transformation）。与 Spark 的 RDD 不同的是，Stream 代表一个数据流而不是静态数据的集合。所以，它包含的数据是随着时间增长而变化的。而且 Stream 上的转换操作都是逐条进行的，即每当有新的数据进来，整个流程都会被执行并更新结果。这样的基本处理模式决定了 Flink 会比 Spark Streaming 有更低的流处理延迟性。
当一个 Flink 程序被执行的时候，它会被映射为 Streaming Dataflow，

这个架构和Spark 架构比较类似，都分为四层：存储层、部署层、核心处理引擎、high-level的API和库。

从存储层来看，Flink 同样兼容多种主流文件系统如HDFS、Amazon S3，多种数据库如HBase和多种数据流如Kafka和Flume。
从部署层来看，Flink不仅支持本地运行，还能在独立集群或者在被YARN或Mesos管理的集群上运行，也能部署在云端。
核心处理引擎就是我们刚才提到的分布式Streaming Dataflow，所有的高级API及应用库都会被翻译成包含Stream和Operator的Dataflow来执行。

Flink 提供的两个核心API就是DataSet APl和DataStream APl。你没看错，名字和Spark的DataSet、DataFrame 非常相似。顾名思义，DataSet代表有界的数据集，而DataStream代表流数据。所以，DataSet API是用来做批处理的，而DataStream API是做流处理的。
也许你会问，Flink 这样基于流的模型是怎样支持批处理的？在内部，DataSet 其实也用Stream表示，静态的有界数据也可以被看作是特殊的流数据，而且DataSet与DataStream 可以无缝切换。所以，Flink的核心是DataStream。

Flink 和 Spark 对比

通过前面的学习，我们了解到，Spark和Flink都支持批处理和流处理，接下来让我们对这两种流行的数据处理框架在各方面进行对比。首先，这两个数据处理框架有很多相同点。

都基于内存计算；
都有统一的批处理和流处理APl，都支持类似SQL的编程接口；
都支持很多相同的转换操作，编程都是用类似于Scala Collection APl的函数式编程模式；
都有完善的错误恢复机制；
都支持Exactly once的语义一致性。

当然，它们的不同点也是相当明显，我们可以从4个不同的角度来看。

从流处理的角度来讲，Spark基于微批量处理，把流数据看成是一个个小的批处理数据块分别处理，所以延迟性只能做到秒级。而Flink基于每个事件处理，每当有新的数据输入都会立刻处理，是真正的流式计算，支持毫秒级计算。由于相同的原因，Spark只支持基于时间的窗口操作（处理时间或者事件时间），而Flink支持的窗口操作则非常灵活，不仅支持时间窗口，还支持基于数据本身的窗口(另外还支持基于time、count、session，以及data-driven的窗口操作)，开发者可以自由定义想要的窗口操作。
从SQL 功能的角度来讲，Spark和Flink分别提供SparkSQL和Table APl提供SQL
交互支持。两者相比较，Spark对SQL支持更好，相应的优化、扩展和性能更好，而Flink在SQL支持方面还有很大提升空间。
从迭代计算的角度来讲，Spark对机器学习的支持很好，因为可以在内存中缓存中间计算结果来加速机器学习算法的运行。但是大部分机器学习算法其实是一个有环的数据流，在Spark中，却是用无环图来表示。而Flink支持在运行时间中的有环数据流，从而可以更有效的对机器学习算法进行运算。
从相应的生态系统角度来讲，Spark 的社区无疑更加活跃。Spark可以说有着Apache旗下最多的开源贡献者，而且有很多不同的库来用在不同场景。而Flink由于较新，现阶段的开源社区不如Spark活跃，各种库的功能也不如Spark全面。但是Flink还在不断发展，各种功能也在逐渐完善。

如何选择Spark和Flink

对于以下场景，你可以选择 Spark。

数据量非常大而且逻辑复杂的批数据处理，并且对计算效率有较高要求（比如用大数据分析来构建推荐系统进行个性化推荐、广告定点投放等）；
基于历史数据的交互式查询，要求响应较快(impala，或者presto更优秀)；
基于实时数据流的数据处理，延迟性要求在在数百毫秒到数秒之间。

Spark完美满足这些场景的需求，而且它可以一站式解决这些问题，无需用别的数据处理平台。由于Flink是为了提升流处理而创建的平台，所以它适用于各种需要非常低延迟（微秒到毫秒级）的实时数据处理场景，比如实时日志报表分析。
而且Flink 用流处理去模拟批处理的思想，比Spark 用批处理去模拟流处理的思想扩展性更好。

我的网名不再改

4楼 · 2020-09-23 15:21

今天在StackOverflow上看到一个问题解答，很好的解释了spark和flink的区别。转到这里并做整理存以笔记以备日后学而时习之。

原文地址：

https://stackoverflow.com/questions/28082581/what-is-the-difference-between-apache-spark-and-apache-flink

问：apache spark 与 flink有什么区别？apache flink是否会取代hadoop?

答：