现在spark和flink哪个更值得学？_大数据

6条回答

steven

2楼 · 2020-04-14 09:02

目前Flink是非常火的，但是spark也是必须要学习的内容，spark是基础，学会了spark以后学习Flink完全就是一如反掌的事情，建议你先学习spark的相关知识，然后在继续学习Flink的知识！

nove

3楼 · 2020-04-14 09:02

spark的流式计算实现没有flink好，可是他的离线是flink没有办法取代的，并且熟悉spark的话，flink的掌握也是水到渠成的事情，个人观点，真要做比较的话，spark更值得学习

爱梦 - 拿来吧你

4楼 · 2021-10-11 10:13

spark:

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

flink

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。

两者最重要的区别(流和微批)

Micro-Batching 计算模式认为 "流是批的特例"，流计算就是将连续不断的批进行持续计算，如果批足够小那么就有足够小的延时，在一定程度上满足了99%的实时计算场景。那么那1%为啥做不到呢?这就是架构的魅力，在Micro-Batching模式的架构实现上就有一个自然流数据流入系统进行攒批的过程，这在一定程度上就增加了延时。具体如下示意图：

汽水味的小盆友

5楼 · 2021-10-11 13:49

根据实际情况来选择对应的框架

spark中分布式RDD缓存是一个非常强大的功能，在这一点上比flink好用很多，比如在实时计算过程中还需要一些离线大数据与之关联，就可以用spark。spark实时计算本来就是微批处理，所以批处理能做的事情流处理都能做，代码也是批流高度统一

flink重在它的高实时性，是真正的实时计算，在状态数据和checkpoint容错上做的比较好，能够做到exactly once，对实时性要求高肯定用flink

另外还有一点我觉得spark比flink好的地方就是spark的executor死了不会导致整个job挂掉，而是会创建新的executor再重新执行失败的任务。而flink某个taskmanager死了整个job就失败了，必须设置checkpoint来进行容错。在机器迁移的过程中spark要比flink方便许多

天天

6楼 · 2021-10-28 19:39

Spark 是最活跃的 Apache 项目之一。从 2014 年左右开始得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks，由最初的 Spark 创造者们成立的公司。今年 6 月的 Spark+AI 峰会参加人数超过 4000。 Spark 因为在引擎方面比 MapReduce 全面占优，经过几年发展和 Hadoop 生态结合较好，已经被广泛视为 Hadoop MapReduce 引擎的取代者。

Flink 也是 Apache 顶级项目，创始者们成立了 Data Artisans。社区规模还无法和 Spark 相比。不过在业界，特别是流处理方面，有不错的口碑。在大规模流处理方面走在最前沿，也是需求最强的几个美国公司，包括 Netflix、 LinkedIn、Uber、Lyft 等，除 LinkedIn 有自己的 Samza 外，都已经采用 Flink 作为流处理引擎或者有了较大投入。

征戰撩四汸

7楼 · 2021-11-19 18:31

Spark和Flink都支持批处理和流处理，接下来让我们对这两种流行的数据处理框架在各方面进行对比。首先，这两个数据处理框架有很多相同点。

都基于内存计算；
都有统一的批处理和流处理APl，都支持类似SQL的编程接口；
都支持很多相同的转换操作，编程都是用类似于Scala Collection APl的函数式编程模式；
都有完善的错误恢复机制；
都支持Exactly once的语义一致性。

当然，它们的不同点也是相当明显，我们可以从4个不同的角度来看。

从流处理的角度来讲，Spark基于微批量处理，把流数据看成是一个个小的批处理数据块分别处理，所以延迟性只能做到秒级。而Flink基于每个事件处理，每当有新的数据输入都会立刻处理，是真正的流式计算，支持毫秒级计算。由于相同的原因，Spark只支持基于时间的窗口操作（处理时间或者事件时间），而Flink支持的窗口操作则非常灵活，不仅支持时间窗口，还支持基于数据本身的窗口(另外还支持基于time、count、session，以及data-driven的窗口操作)，开发者可以自由定义想要的窗口操作。
从SQL 功能的角度来讲，Spark和Flink分别提供SparkSQL和Table APl提供SQL
交互支持。两者相比较，Spark对SQL支持更好，相应的优化、扩展和性能更好，而Flink在SQL支持方面还有很大提升空间。
从迭代计算的角度来讲，Spark对机器学习的支持很好，因为可以在内存中缓存中间计算结果来加速机器学习算法的运行。但是大部分机器学习算法其实是一个有环的数据流，在Spark中，却是用无环图来表示。而Flink支持在运行时间中的有环数据流，从而可以更有效的对机器学习算法进行运算。
从相应的生态系统角度来讲，Spark 的社区无疑更加活跃。Spark可以说有着Apache旗下最多的开源贡献者，而且有很多不同的库来用在不同场景。而Flink由于较新，现阶段的开源社区不如Spark活跃，各种库的功能也不如Spark全面。但是Flink还在不断发展，各种功能也在逐渐完善。

如何选择Spark和Flink

对于以下场景，你可以选择 Spark。

1、数据量非常大而且逻辑复杂的批数据处理，并且对计算效率有较高要求（比如用大数据分析来构建推荐系统进行个性化推荐、广告定点投放等）；

2、基于历史数据的交互式查询，要求响应较快(impala，或者presto更优秀)；

3、基于实时数据流的数据处理，延迟性要求在在数百毫秒到数秒之间。

Spark完美满足这些场景的需求，而且它可以一站式解决这些问题，无需用别的数据处理平台。由于Flink是为了提升流处理而创建的平台，所以它适用于各种需要非常低延迟（微秒到毫秒级）的实时数据处理场景，比如实时日志报表分析。
而且Flink 用流处理去模拟批处理的思想，比Spark 用批处理去模拟流处理的思想扩展性更好。

现在spark和flink哪个更值得学？

如何选择Spark和Flink

相关问题推荐

等你来答

热门问答

相关文章

现在spark和flink哪个更值得学？

如何选择Spark和Flink

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间