spark的优点有哪些？_第2页回答_第2页回答_Spark

20条回答

寂静的枫林

2楼 · 2021-08-06 20:12

与Hadoop相比，Spark基于内存的运算效率要快100倍以上，Spark编程支持Java、Python、Scala及R语言，并且还拥有超过80种高级算法

茄子酱

3楼 · 2021-08-13 14:02

Spark具有以下几个显著的特点：
1、速度快

小生根据官方数据统计，与Hadoop相比，Spark基于内存的运算效率要快100倍以上，基于硬盘的运算效率也要快10倍以上。Spark实现了高效的DAG执行引擎，能够通过内存计算高效地处理数据流。

2、易用性

Spark编程支持Java、Python、Scala及R语言，并且还拥有超过80种高级算法，除此之外，Spark还支持交互式的Shell操作，开发人员可以方便地在Shell客户端中使用Spark集群解决问题。

3、通用性

Spark提供了统一的解决方案，适用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX)，它们可以在同一个应用程序中无缝地结合使用，大大减少大数据开发和维护的人力成本和部署平台的物力成本。

4、兼容性

Spark开发容pSpark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中，并且还可以访问各种数据源，包括本地文件系统、HDFS、Cassandra、HBase和Hive等。

Danke - 四有青年

4楼 · 2021-08-13 16:18

Spark 的特点是快、易用、通用

第一，它是基于内存运算的，它所有的数据并不是都放在内存中的，它的内存计算是有自适应的，当它内存不够的时候，它自己会选择放到磁盘中，不是完全放到内存当中。

第二，它作迭代式运算比较擅长。它一个 jar 包里可以写很多任务。区别于 mapreduce 一个 jar 包只能写一个任务，分别去调度。Spark 调度一次，可以跑很多任务，这是它的优势所在。

嘿呦嘿呦拔萝卜

5楼 · 2021-08-21 19:33

它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的

yjh

6楼 · 2021-08-24 13:49

Spark 的5大优势：

1、更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代，并缓存用以后续的频繁访问需求。在数据全部加载到内存的情况下，Spark可以比Hadoop快100倍，在内存不够存放所有数据的情况下快hadoop10倍。

2、通过建立在Java,Scala,Python,SQL(应对交互式查询)的标准API以方便各行各业使用，同时还含有大量开箱即用的机器学习库。

3、与现有Hadoop 1和2.x(YARN)生态兼容，因此机构可以无缝迁移。

4、方便下载和安装。方便的shell(REPL: Read-Eval-Print-Loop)可以对API进行交互式的学习。

5、借助高等级的架构提高生产力，从而可以讲精力放到计算上。

我的网名不再改

7楼 · 2021-08-25 13:18

Spark的四大优点

快:与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上；而基于磁盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效地处理数据流。

容易使用:Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同应用。而且Spark支持交互式的Python和Scala的Shell，这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法，而不是像以前一样，需要打包、上传集群、验证等。这对于原型开发非常重要。

通用性：Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（通用Spark SQL）、实时流处理（通过Spark Streaming）、机器学习（通过Spark MLlib）和图计算（通过Spark GraphX）。

这些不同类型的处理都可以在同一应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台处理问题，减少开发和维护的人力成本和部署平台的物理成本。当然还有，作为统一的解决方案，Spark并没有以牺牲性能为代价。相反，在性能方面Spark具有巨大优势。

可融合性：Spark非常方便的与其他开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassanda等。这对于已部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark强大的处理能力。Spark也可以不依赖第三方的资源管理器和调度器，它实现了Standalone作为其内置资源管理器和调度框架，这样进一步降低了Spark的使用门槛，使得所有人可以非常容易地部署和使用Spark。此外Spark还提供了在EC2上部署Standalone的Spark集群的工具。

summer

8楼 · 2021-09-01 16:46

Spark是基于内存，是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目，尤其出色的支持Interactive Query、流计算、图计算等。
Spark在机器学习方面有着无与伦比的优势，特别适合需要多次迭代计算的算法。同时Spark的拥有非常出色的容错和调度机制，确保系统的稳定运行，Spark目前的发展理念是通过一个计算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多种功能于一个项目中，具有非常好的易用性。
目前SPARK已经构建了自己的整个大数据处理生态系统，如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术，并且是Apache顶级Project，可以预计的是2014年下半年在社区和商业应用上会有爆发式的增长。
Spark最大的优势在于速度，在迭代处理计算方面比Hadoop快100倍以上；Spark另外一个无可取代的优势是：“One Stack to rule them all”，Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题，这直接奠定了其一统云计算大数据领域的霸主地位；

哈哈哈哈哈哈嗝

9楼 · 2021-09-03 16:59

1、计算速度快

大数据处理首先追求的是速度。Spark 到底有多快?用官方的话说，“Spark 允许 Hadoop 集群中的应用程序在内存中以 100 倍的速度运行，即使在磁盘上运行也能快 10 倍”。可能有的读者看到这里会大为感叹，的确如此，在有迭代计算的领域，Spark 的计算速度远远超过 MapReduce，并且迭代次数越多，Spark 的优势越明显。这是因为 Spark 很好地利用了目前服务器内存越来越大这一优点，通过减少磁盘 I/O 来达到性能提升。它们将中间处理数据全部放到了内存中，仅在必要时才批量存入硬盘中。或许读者会问：如果应用程序特别大，内存能放下多少 GB ?答曰：什么? GB ?目前 IBM 服务器内存已经扩展至几 TB 了。

2、应用灵活，上手容易

知道 AMPLab 的 Lester 为什么放弃 MapReduce 吗?因为他需要把很多精力放到Map和Reduce的编程模型上，极为不便。 Spark在简单的Map及Reduce操作之外，还支持 SQL 查询、流式查询及复杂查询，比如开箱即用的机器学习算法。同时，用户可以在同一个工作流中无缝地搭配这些能力，应用十分灵活。欢迎加入大数据学习交流分享群： 658558542 一起吹水交流学习（☛点击即可加入群聊）

Spark 核心部分的代码为 63 个 Scala 文件，非常的轻量级。并且允许 Java、Scala、Python 开发者在自己熟悉的语言环境下进行工作，通过建立在Java、Scala、Python、SQL(应对交互式查询)的标准 API 以方便各行各业使用，同时还包括大量开箱即用的机器学习库。它自带 80 多个高等级操作符，允许在 Shell中进行交互式查询。即使是新手，也能轻松上手应用。

3、兼容竞争对手

Spark 可以独立运行，除了可以运行在当下的 YARN 集群管理外，还可以读取已有的任何 Hadoop 数据。它可以运行在任何 Hadoop 数据源上，比如 HBase、HDFS 等。有了这个特性，让那些想从 Hadoop 应用迁移到 Spark 上的用户方便了很多。Spark 有兼容竞争对手的胸襟，何愁大事不成?

spark的优点有哪些？_第2页回答

相关问题推荐

等你来答

热门问答

相关文章

spark的优点有哪些？_第2页回答

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间