SparkSQL中join操作与left join操作的区别?

2020-07-30 10:13发布

10条回答
蓝鲸鱼
2021-08-18 10:53

Spark中常用的join操作有leftOuterJoin、rightOuterJoin、fullOuterJoin及join,这4个join。这几个join都类似于mysql中的join操作,其中Rdd的join就相当于mysql中的innerJoin。

下面以代码和结果的形式展示这几个join的区别:

    val conf = new SparkConf().setAppName("JoinTest").setMaster("local")
    val sc = new SparkContext(conf)
    val pairRDD1 = sc.parallelize(List( ("cat",2), ("cat", 5), ("book", 4),("cat", 12)))
    val pairRDD2 = sc.parallelize(List( ("cat",2), ("cup", 5), ("mouse", 4),("cat", 12)))
    
    val rdd1 = pairRDD1.leftOuterJoin(pairRDD2)
    val rdd2 = pairRDD1.rightOuterJoin(pairRDD2)
    val rdd3 = pairRDD1.fullOuterJoin(pairRDD2)
    val rdd4 = pairRDD1.join(pairRDD2)
    
    rdd1.collect().foreach(println)   
    rdd2.collect().foreach(println)   
    rdd3.collect().foreach(println)    
    rdd4.collect().foreach(println)                                                                      
  }


接下来分别是四个join的结果:

(1)leftOuterJoin 左连接,返回数据集左边的全部数据和数据集左边与右边有交集的数据

(2)rightOuterJoin 右连接,返回数据集右边的全部数据和数据集右边与左边有交集的数据

(3)fullOuterJoin 全连接,返回左右数据集的全部数据,左右有一边不存在的数据以None填充

(4)join 内连接,当join左右两边的数据集都存在时才返回


leftJoin类似于SQL中的左外关联left outer join,返回结果以第一个RDD为主,关联不上的记录为空。

部分场景下可以使用left semi join替代left join:
因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,性能更高,而 left join 则会一直遍历。
但是left semi join 中最后 select 的结果中只许出现左表中的列名,因为右表只有 join key 参与关联计算了。



一周热门 更多>