简述请说明hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思？

八股文_Hive 0 200

在Hive中，SORT BY、ORDER BY、CLUSTER BY 和 DISTRIBUTE BY 都是用来对查询结果进行排序和分布的关键字，但它们的实现方式和作用有所不同：

ORDER BY：在Hive中，ORDER BY 是全局排序，意味着它会对整个查询结果进行排序。由于它是在整个数据集上进行排序，因此会在单个Reducer中执行，可能会导致性能瓶颈，尤其是在数据量较大的时候。
- 示例：
```
SELECT * FROM table_name ORDER BY column_name;
```
SORT BY：SORT BY 是局部排序，意味着它在每个Reducer中分别对数据进行排序，而不是对整个结果集进行全局排序。它适用于在某些情况下需要在每个Reducer中局部排序，但不需要全局排序的场景。
- 示例：
```
SELECT * FROM table_name SORT BY column_name;
```
CLUSTER BY：CLUSTER BY 是一种特殊的 DISTRIBUTE BY 和 SORT BY 的组合，它会根据指定的列将数据分配到不同的Reducer中，然后对每个Reducer的数据进行排序。可以理解为对数据进行分区后再排序。
- 示例：
```
SELECT * FROM table_name CLUSTER BY column_name;
```
DISTRIBUTE BY：DISTRIBUTE BY 用于控制数据如何在不同的Reducer之间进行分配。它不会对数据进行排序，只是将数据分配到不同的Reducer中。适用于将数据分散到多个Reducer进行处理。
- 示例：
```
SELECT * FROM table_name DISTRIBUTE BY column_name;
```

描述：ORDER BY 是全局排序，它会对查询的结果集进行全局排序，这意味着所有的数据必须被传送到一个单独的Reducer进行排序，因此在处理大数据量时可能会导致性能瓶颈。
使用场景：适用于需要对整个结果集进行全局排序的情况，通常是数据量相对较小的场景。
例子：
假设我们有一个表sales，查询对销售额进行全局排序：
```
SELECT * FROM sales ORDER BY sales_amount DESC;
```

描述：SORT BY 是局部排序，它会在每个Reducer中对数据进行排序，而不是对整个数据集进行全局排序。这意味着每个Reducer上的数据会被排序，但是不同Reducer之间的数据不会进行全局排序。
使用场景：适用于数据量较大时，需要在每个Reducer上进行局部排序，但不需要全局排序的场景。
例子：
对销售数据在每个Reducer中进行局部排序：
```
SELECT * FROM sales SORT BY sales_amount DESC;
```

描述：CLUSTER BY 是 DISTRIBUTE BY 和 SORT BY 的结合，它首先根据指定的列将数据分配到不同的Reducer中，然后在每个Reducer上对数据进行排序。相当于先对数据进行分区，再对每个分区内的数据进行排序。
使用场景：适用于需要根据某一列对数据进行分区并排序的情况，特别是在处理大规模分布式数据时。
例子：
对销售数据按照地区进行分区，并在每个分区内进行排序：
```
SELECT * FROM sales CLUSTER BY region;
```

描述：DISTRIBUTE BY 用于指定如何将数据分配到不同的Reducer中，但不会对数据进行排序。它将数据按照指定的列分发到不同的Reducer，通常用于在Map阶段进行数据的分布式处理。
使用场景：适用于需要将数据分配到不同的Reducer进行并行处理，但不关心每个Reducer内部的数据排序。
例子：
将销售数据根据地区分配到不同的Reducer中：
```
SELECT * FROM sales DISTRIBUTE BY region;
```

根据不同的应用场景，选择合适的关键字可以有效提高Hive查询的性能。