hive中order by,sort by, distribute by, cluster by作用

2020-07-09 10:00发布

2条回答

2020-07-10 09:16

1．使用 ORDER BY 子句排序

ASC（ascend）: 升序（默认）

DESC（descend）: 降序

2．ORDER BY 子句在SELECT语句的结尾

Sort By：每个MapReduce内部进行排序，会形成多个结果文件，每个结果文件有序，对全局结果集来说不是排序。

需要设置reduce个数

Sort by排序后的结果文件，无法指定哪些数据进入到同个文件，而分区排序可以，比如部门编号相同的进入到同个结果文件，然后再利用sort by进行排序。

Distribute By：类似MR中partition，进行分区，结合sort by使用。

注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

当distribute by和sorts by字段相同时，可以使用cluster by方式。

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒序排序，不能指定排序规则为ASC或者DESC，因为相同的值的内容被写到同一个结果里面，无所谓正序倒序了。