4条回答

2楼 · 2020-10-09 16:09

sparkstreaming 程序没有结果，不报错也不输出
通过浏览器访问8088端口 spark streaming程序一直处于ACCEPTED状态（处于RUNNING的程序才会运行。）

可能原因：
1.spark streaming 在同一个 spark context 下同时只会运行一个，如果需要运行下一个，必须完全kill上一个。
2. kafka队列中有太多积压得信息未被读取。

正确代码：
1.使用 yarn application --list 查看正在运行得yarn应用
2.使用yarn application -kill application_num 关闭积压的yarn应用
3.最好kill掉整个 spark 后台重新运行
4.创建 kafka 消费者消耗掉队列积压的消息
kafka-console-consumer.sh --bootstrap-server 192.168.119.137:9092 --topic click-trace --from-beginning
5. 重新运行 spark streaming

我的网名不再改

3楼 · 2020-10-11 15:08

报错代码：

报错：
sparkstreaming 程序没有结果，不报错也不输出
通过浏览器访问8088端口 spark streaming程序一直处于ACCEPTED状态（处于RUNNING的程序才会运行。）

小叮当

4楼 · 2020-10-11 22:05

1.spark streaming 在同一个 spark context 下同时只会运行一个，如果需要运行下一个，必须完全kill上一个。
2. kafka队列中有太多积压得信息未被读取。

乐xenia

5楼 · 2020-10-21 16:25

1、Spark Streaming简介

Spark Streaming：Spark提供的，对于大数据进行实时计算的一种框架；它的底层，也是基于Spark Core的；
其基本的计算模型，还是基于内存的大数据实时计算模型RDD，只不过，针对实时计算的特点，在RDD之上，进行了一层封装，叫做DStream（类似Spark SQL中的DataFrame）；所以RDD是整个Spark技术生态的核心。

Spark Streaming是Spark Core Api的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理；支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者TCP Socket，并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join、window；处理后的数据可以被保存到文件系统、数据库、Dashboard等存储中。

image.png

2、Spark Streaming工作原理

Spark Streaming内部的基本工作原理：接收实时输入数据流，然后将数据拆分成多个batch，比如每收集1s的数据封装为一个batch，然后将每个batch交给Spark的计算引擎进行处理，最后会生产出一个结果数据流，其中的数据，也是一个个的batch所组成的。其中，一个batchInterval累加读取到的数据对应一个RDD的数据

image.png

3、DStream

DStream：Discretized Stream，离散流，Spark Streaming提供的一种高级抽象，代表了一个持续不断的数据流；
DStream可以通过输入数据源来创建，比如Kafka、Flume，也可以通过对其他DStream应用高阶函数来创建，比如map、reduce、join、window；

DStream的内部，其实是一系列持续不断产生的RDD，RDD是Spark Core的核心抽象，即，不可变的，分布式的数据集；
DStream中的每个RDD都包含了一个时间段内的数据；
以下图为例，0-1这段时间的数据累积构成了RDD@time1，1-2这段时间的数据累积构成了RDD@time2,。。。

image.png

对DStream应用的算子，其实在底层会被翻译为对DStream中每个RDD的操作；
比如对一个DStream执行一个map操作，会产生一个新的DStream，其底层原理为，对输入DStream中的每个时间段的RDD，都应用一遍map操作，然后生成的RDD，即作为新的DStream中的那个时间段的一个RDD；
底层的RDD的transformation操作，还是由Spark Core的计算引擎来实现的，Spark Streaming对Spark core进行了一层封装，隐藏了细节，然后对开发人员提供了方便易用的高层次API。

image.png

4、Spark Streaming VS Storm

image.png

优势
从上图中可以看出，Spark Streaming绝对谈不上比Storm优秀，这两个框架在实时计算领域中，都很优秀，只是擅长的细分场景并不相同；
Spark Streaming仅仅在吞吐量上比Storm要优秀，但问题是，是不是在所有的实时计算场景下，都那么注重吞吐量？
不尽然。
因此，通过吞吐量说Spark Streaming 强于Storm，不靠谱；
事实上，Storm在实时延迟度上，比Spark Streaming就好多了，Storm是纯实时，Spark Streaming是准实时；而且Storm的事务机制，健壮性/容错性、动态调整并行度等特性，都要比Spark Streaming更加优秀。
Spark Streaming的真正优势（Storm绝对比不上的），是它属于Spark生态技术栈中，因此Spark Streaming可以和Spark Core、Spark SQL无缝整合，而这也就意味着，我们可以对实时处理出来的中间数据，立即在程序中无缝进行延迟批处理、交互式查询等操作，这个特点大大增强了Spark Streaming的优势和功能。
应用场景

Storm：
1、建议在那种需要纯实时，不能忍受1s以上延迟的场景下使用，比如金融系统，要求纯实时进行金融交易和分析；
2、如果对于实时计算的功能中，要求可靠的事务机制和可靠性机制，即数据的处理完全精准，一条也不能多，一条也不能少，也可以考虑使用Strom；
3、如果需要针对高峰低峰时间段，动态调整实时计算程序的并行度，以最大限度利用集群资源，也可以考虑用Storm；
4、如果一个大数据应用系统，它就是纯粹的实时计算，不需要在中间执行SQL交互式查询、复杂的transformation算子等，那么使用Storm是比较好的选择
Spark Streaming：
1、如果对上述适用于Storm的三点，一条都不满足的实时场景，即，不要求纯实时，不要求强大可靠的事务机制，不要求动态调整并行度，那么可以考虑使用Spark Streaming；
2、考虑使用Spark Streaming最主要的一个因素，应该是针对整个项目进行宏观的考虑，即，如果一个项目除了实时计算之外，还包括了离线批处理、交互式查询等业务功能，而且实时计算中，可能还会牵扯到高延迟批处理、交互式查询等功能，那么就应该首选Spark生态，用Spark Core开发离线批处理，用Spark SQL开发交互式查询，用Spark Streaming开发实时计算，三者可以无缝整合，给系统提供非常高的可扩展性。

作者：张凯_9908
链接：https://www.jianshu.com/p/931651943104
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

spark streaming 没有统计结果？

1、Spark Streaming简介

2、Spark Streaming工作原理

3、DStream

4、Spark Streaming VS Storm

相关问题推荐

等你来答

热门问答

相关文章

spark streaming 没有统计结果？

1、Spark Streaming简介

2、Spark Streaming工作原理

3、DStream

4、Spark Streaming VS Storm

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间