2020-07-30 10:13发布
Spark中常用的join操作有leftOuterJoin、rightOuterJoin、fullOuterJoin及join,这4个join。这几个join都类似于mysql中的join操作,其中Rdd的join就相当于mysql中的innerJoin。
下面以代码和结果的形式展示这几个join的区别:
val conf = new SparkConf().setAppName("JoinTest").setMaster("local") val sc = new SparkContext(conf) val pairRDD1 = sc.parallelize(List( ("cat",2), ("cat", 5), ("book", 4),("cat", 12))) val pairRDD2 = sc.parallelize(List( ("cat",2), ("cup", 5), ("mouse", 4),("cat", 12))) val rdd1 = pairRDD1.leftOuterJoin(pairRDD2) val rdd2 = pairRDD1.rightOuterJoin(pairRDD2) val rdd3 = pairRDD1.fullOuterJoin(pairRDD2) val rdd4 = pairRDD1.join(pairRDD2) rdd1.collect().foreach(println) rdd2.collect().foreach(println) rdd3.collect().foreach(println) rdd4.collect().foreach(println) }
接下来分别是四个join的结果:
(1)leftOuterJoin 左连接,返回数据集左边的全部数据和数据集左边与右边有交集的数据
(2)rightOuterJoin 右连接,返回数据集右边的全部数据和数据集右边与左边有交集的数据
(3)fullOuterJoin 全连接,返回左右数据集的全部数据,左右有一边不存在的数据以None填充
(4)join 内连接,当join左右两边的数据集都存在时才返回
leftJoin类似于SQL中的左外关联left outer join,返回结果以第一个RDD为主,关联不上的记录为空。
部分场景下可以使用left semi join替代left join:因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,性能更高,而 left join 则会一直遍历。但是left semi join 中最后 select 的结果中只许出现左表中的列名,因为右表只有 join key 参与关联计算了。
最多设置5个标签!
Spark中常用的join操作有leftOuterJoin、rightOuterJoin、fullOuterJoin及join,这4个join。这几个join都类似于mysql中的join操作,其中Rdd的join就相当于mysql中的innerJoin。
下面以代码和结果的形式展示这几个join的区别:
接下来分别是四个join的结果:
(1)leftOuterJoin 左连接,返回数据集左边的全部数据和数据集左边与右边有交集的数据
(2)rightOuterJoin 右连接,返回数据集右边的全部数据和数据集右边与左边有交集的数据
(3)fullOuterJoin 全连接,返回左右数据集的全部数据,左右有一边不存在的数据以None填充
(4)join 内连接,当join左右两边的数据集都存在时才返回
leftJoin类似于SQL中的左外关联left outer join,返回结果以第一个RDD为主,关联不上的记录为空。
部分场景下可以使用left semi join替代left join:
因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,性能更高,而 left join 则会一直遍历。
但是left semi join 中最后 select 的结果中只许出现左表中的列名,因为右表只有 join key 参与关联计算了。
一周热门 更多>