SparkSQL中join操作与left join操作的区别？

2020-07-30 10:13发布

10条回答

2021-08-18 10:53

Spark中常用的join操作有leftOuterJoin、rightOuterJoin、fullOuterJoin及join,这4个join。这几个join都类似于mysql中的join操作，其中Rdd的join就相当于mysql中的innerJoin。

下面以代码和结果的形式展示这几个join的区别:

    val conf = new SparkConf().setAppName("JoinTest").setMaster("local")
    val sc = new SparkContext(conf)
    val pairRDD1 = sc.parallelize(List( ("cat",2), ("cat", 5), ("book", 4),("cat", 12)))
    val pairRDD2 = sc.parallelize(List( ("cat",2), ("cup", 5), ("mouse", 4),("cat", 12)))
    
    val rdd1 = pairRDD1.leftOuterJoin(pairRDD2)
    val rdd2 = pairRDD1.rightOuterJoin(pairRDD2)
    val rdd3 = pairRDD1.fullOuterJoin(pairRDD2)
    val rdd4 = pairRDD1.join(pairRDD2)
    
    rdd1.collect().foreach(println)   
    rdd2.collect().foreach(println)   
    rdd3.collect().foreach(println)    
    rdd4.collect().foreach(println)                                                                      
  }

接下来分别是四个join的结果：

(1)leftOuterJoin 左连接，返回数据集左边的全部数据和数据集左边与右边有交集的数据

(2)rightOuterJoin 右连接，返回数据集右边的全部数据和数据集右边与左边有交集的数据

(3)fullOuterJoin 全连接，返回左右数据集的全部数据，左右有一边不存在的数据以None填充

(4)join 内连接，当join左右两边的数据集都存在时才返回

leftJoin类似于SQL中的左外关联left outer join，返回结果以第一个RDD为主，关联不上的记录为空。

部分场景下可以使用left semi join替代left join：
因为 left semi join 是 in(keySet) 的关系，遇到右表重复记录，左表会跳过,性能更高，而 left join 则会一直遍历。
但是left semi join 中最后 select 的结果中只许出现左表中的列名，因为右表只有 join key 参与关联计算了。

查看其它10个回答

SparkSQL中join操作与left join操作的区别？

一周热门更多>

相关问答

相关文章

SparkSQL中join操作与left join操作的区别？

一周热门 更多>

相关问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门更多>