spark与Hadoop的区别是什么？_大数据

10条回答

小杨小杨

2楼 · 2021-04-29 11:52

Spark没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作，它只是一个计算分析框架，专门用来对分布式存储的数据进行计算处理，它本身并不能存储数据；

樱田妮妮NiNi

3楼 · 2021-04-29 13:40

Spark，是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎

Hadoop，是分布式管理、存储、计算的生态系统；包括HDFS（存储）、MapReduce（计算）、Yarn（资源调度）

（1）Spark对标于Hadoop中的计算模块MR，但是速度和效率比MR要快得多；

（2）Spark没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作，它只是一个计算分析框架，专门用来对分布式存储的数据进行计算处理，它本身并不能存储数据；

（3）Spark可以使用Hadoop的HDFS或者其他云数据平台进行数据存储，但是一般使用HDFS；

（4）Spark可以使用基于HDFS的HBase数据库，也可以使用HDFS的数据文件，还可以通过jdbc连接使用Mysql数据库数据；Spark可以对数据库数据进行修改删除，而HDFS只能对数据进行追加和全表删除；

（5）Spark数据处理速度秒杀Hadoop中MR；

（6）Spark处理数据的设计模式与MR不一样，Hadoop是从HDFS读取数据，通过MR将中间结果写入HDFS；然后再重新从HDFS读取数据进行MR，再刷写到HDFS，这个过程涉及多次落盘操作，多次磁盘IO，效率并不高；而Spark的设计模式是读取集群中的数据后，在内存中存储和运算，直到全部运算完毕后，再存储到集群中。

雨陵西 - 每一代青年都有自己的际遇和机缘

4楼 · 2021-04-29 13:43

（1）Spark对标于Hadoop中的计算模块MR，但是速度和效率比MR要快得多；

（3）Spark可以使用Hadoop的HDFS或者其他云数据平台进行数据存储，但是一般使用HDFS；

（5）Spark数据处理速度秒杀Hadoop中MR；

（7）Spark是由于Hadoop中MR效率低下而产生的高效率快速计算引擎，批处理速度比MR快近10倍，内存中的数据分析速度比Hadoop快近100倍（源自官网描述）；

（8）Spark中RDD一般存放在内存中，如果内存不够存放数据，会同时使用磁盘存储数据；通过RDD之间的血缘连接、数据存入内存中切断血缘关系等机制，可以实现灾难恢复，当数据丢失时可以恢复数据；这一点与Hadoop类似，Hadoop基于磁盘读写，天生数据具备可恢复性；

（9）Spark引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟，对7的补充；

（10）Spark中通过DAG图可以实现良好的容错。

小橘子

5楼 · 2021-04-29 14:44

hadoop:是分布式存储系统，同时提供分布式计算环境，存储称为hdfs，计算称为mapreduce 简称MR。
spark：是一个分布式计算框架，类似于hadoop的运算环境，但是比mapreduce提供了更多支持，与其他系统的对接，一些高级算法等，可以独立运行，也可以使用hdfs上的数据，调度任务也可以基于hadoop的yarn来管理。由于整个计算都可以在内存中完成，所以速度自然比传统的MR计算的快。除此之外spark运行时占用的系统资源也比MR小得多，相比较属于轻量级运行。最核心的也是它提供的分析学习算法，这个大部分分布式架构不具有的。
一般spark下的编程多数基于scala来完成，而非java，所以想学习spark一定要学习scala语言