7条回答

2楼 · 2020-11-10 19:49

看应用场景吧，数据量没到TB级的话，我觉得PySpark完全没啥问题，简单方便，Python支持的第三方模块贼多。对于数据科学，数据分析人员来说，Python是门非常友好的语言，学习Scala的成本比较高。

3楼 · 2020-11-10 20:46

看你的场景吧~ 如果是在生产环境中使用，建议还是scala，当前版本的PySpark实现是基于Py4J，需要将数据通过native socket的方式从jvm传输给python进程,相关的代码可以查看PythonGatewayServer等，传输的过程中有Ser/De开销，在数据集比较大的时候性能下降会更明显，当然社区在这方面也有很多努力，比如最近的基于Apache Arrow的python udf的vectorize的优化。
总结一下，简单开发，比如本地，当然可以使用PySpark，如果是生产环境，建议Scala。

无需指教

4楼 · 2020-11-11 08:45

1.性能对比

由于Scala是基于JVM的数据分析和处理，Scala比Python快10倍。当编写Python代码用且调用Spark库时，性能是平庸的，但如果程序涉及到比Python编码还要多的处理时，则要比Scala等效代码慢得多。Python解释器PyPy内置一个JIT（及时）编译器，它很快，但它不提供各种Python C扩展支持。在这样的情况下，对库的C扩展CPython解释器优于PyPy解释器。

使用Python在Spark的性能开销超过Scala，但其重要性取决于您在做什么。当内核数量较少时，Scala比Python快。随着核数的增加，Scala的性能优势开始缩小。

当大量的处理其工作时，性能不是选择编程语言的主要驱动因素。然而，当有重要的处理逻辑时，性能是一个主要因素，Scala绝对比Python提供更好的性能，用于针对Spark程序。

2.学习曲线

在用Scala语言编写Spark程序时有几个语法糖，所以大数据专业人员在学习Spark时需要非常小心。程序员可能会发现Scala语法有时会让人发疯。Scala中的一些库很难定义随机的符号运算符，而这些代码可以由没有经验的程序员理解。在使用Scala时，开发人员需要关注代码的可读性。与Scala相比，Java或Python是一个灵活的语法复杂的语言。对Scala开发人员的需求越来越大，因为大数据公司重视能在Spark中掌握数据分析和处理的高效而健壮的开发人员。

Python是为Java程序员学习相对容易的因为它的语法和标准库。然而，Python是不是一个高度并行和可扩展的像SoundCloud或推特系统的理想选择。

学习Scala丰富了程序员对类型系统中各种新抽象的认识，新的函数编程特性和不可变数据。

3.并发性

大数据系统的复杂多样的基础结构需要一种编程语言，它有能力集成多个数据库和服务。在大数据的生态系统中，Scala胜在Play框架提供了许多异步库和容易集成的各种并发原语，比如Akka。Scala使开发人员编写高效的、可读性和可维护性的服务而不是。相反，Python不支持的重量级进程并行在用uWSGI时，但它不支持真正的多线程。

当使用Python写Spark程序时，不管进程有多少线程，每次只有一个CPU在Python进程中处于活动状态。这有助于每个CPU核心只处理一个进程，但糟糕的是，每当部署新代码时，需要重新启动更多的进程，还需要额外的内存开销。Scala在这些方面更高效，更容易共事。

4.类型安全

当用Spark编程时，开发人员需要根据变化的需求不断地重新编码代码。Scala是静态类型语言，尽管它看起来像一种动态类型语言，因为它具有优雅的类型推断机制。作为静态类型语言，Scala仍然提供编译器来捕获编译时错误。

重构像Scala这样的静态类型语言的程序代码比重构像Python这样的动态语言代码要容易得多且简单。开发人员在修改Python程序代码后常常会遇到困难，因为它造成的bug比修复程序原有的bug要多。所以最好是缓慢而安全地使用Scala，而不是快速的、死地使用Python。

对于小型的特殊实验，Python是一种有效的选择，但它并不像静态语言那样有效地扩展到大型软件工程中。

5.易用性

Scala和Python语言在Sparkcontext中有同样的表达，因此通过使用Scala或Python可以实现所需的功能。无论哪种方式，程序员都会创建一个Sparkcontext并调用函数。Python是一种比Scala更便于用户使用的语言。Python不那么冗长，开发人员很容易用Python编写脚本来调用Spark。易用性是一个主观因素，因为它取决于程序员的个人偏好。

6.高级特性

Scala编程语言有几个存在类型、宏和隐式。Scala的晦涩难懂的语法可能很难对开发人员可能无法理解的高级特性进行实验。然而，Scala的优势在于在重要的框架和库中使用这些强大的特性。

话虽如此，Scala没有足够的数据科学工具和库，如Python用于机器学习和自然语言处理。Sparkmlib–机器学习库只有较少的ML算法但他们是理想的大数据处理。Scala缺乏良好的可视化和本地数据转换。Scala无疑是Spark streaming特性的最佳选择，因为Python 通过pySpark 调用Spark.streaming不像Scala那样先进和成熟。

总结：

“Scala速度更快，使用方便但上手难，而Python则较慢，但很容易使用。”

Spark框架是用Scala编写的，所以了解Scala编程语言有助于大数据开发人员轻松地挖掘源代码，如果某些功能不能像预期的那样发挥作用。使用Python增加了更多问题和bug的可能性，因为2种不同语言之间的转换是困难的。为Spark使用Scala提供对Spark框架的最新特性的访问，因为它们首先在Scala中可用，然后移植到Python中。

根据Spark决定Scala和Python取决于最适合项目需要的特性，因为每种语言都有自己的优点和缺点。在使用Apache Spark编程语言之前，开发者必须学习Scala和Python来熟悉它们的特性。学习了Python和Scala之后，决定何时使用Scala来Spark以及何时使用Python来调用Spark是相当容易的。Apache Spark编程语言的选择完全取决于要解决的问题。

希希

5楼 · 2020-11-13 11:11

我是大脸猫

6楼 · 2020-11-13 14:02

1.性能对比

使用Python在Spark的性能开销超过Scala，但其重要性取决于您在做什么。当内核数量较少时，Scala比Python快。随着核数的增加，Scala的性能优势开始缩小。

2.学习曲线

Python是为Java程序员学习相对容易的因为它的语法和标准库。然而，Python是不是一个高度并行和可扩展的像SoundCloud或推特系统的理想选择。

学习Scala丰富了程序员对类型系统中各种新抽象的认识，新的函数编程特性和不可变数据。

3.并发性

4.类型安全

对于小型的特殊实验，Python是一种有效的选择，但它并不像静态语言那样有效地扩展到大型软件工程中。

5.易用性

6.高级特性

总结：

“Scala速度更快，使用方便但上手难，而Python则较慢，但很容易使用。”

yunfeng

7楼 · 2020-11-23 13:44

看你的场景。如果是在生产环境中使用，建议还是scala。

赵小刀

8楼 · 2020-12-30 09:22

使用Spark，Scala不是必须的，Spark有Java、Python、R的API。但是要想深入学习，还是建议学习Scala的。我现在的感觉就是，如果你会Scala，Spark都不用怎么学。因为一般的Scala程序就是这么写的，用Spark的区别就是换了一套API而已...

写好pyspark是不是不用学Scala了？

1.性能对比

2.学习曲线

3.并发性

4.类型安全

5.易用性

6.高级特性

总结：

1.性能对比

2.学习曲线

3.并发性

4.类型安全

5.易用性

6.高级特性

总结：

相关问题推荐

等你来答

热门问答

相关文章

写好pyspark是不是不用学Scala了？

1.性能对比

2.学习曲线

3.并发性

4.类型安全

5.易用性

6.高级特性

总结：

1.性能对比

2.学习曲线

3.并发性

4.类型安全

5.易用性

6.高级特性

总结：

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间