1. 程式人生 > >Hive的分組排序方法-row_number

Hive的分組排序方法-row_number

這個方法總而言之就是幫助使用者減少工作量

比如,如下結構:

CREATE TABLE user_order(
user_id int COMMENT '使用者ID'
pro_id int COMMENT '產品ID',
value STRING COMMENT '價格' 
)

查出每個使用者買的價值最高的兩個用品,如果不用row_number費點時間也是可以寫出來的,但是用row_number就比較快捷:

SELECT user_id,pro_id,value FROM (
SELECT user_id,pro_id,value,
row_number() over (PARTITION BY user_id OREDER BY value DESC) as flag
WHERE flag<=2
);


除Row_number外還有rank,dense_rank
以下是語法:
rank() over([partition by col1] order by col2)
dense_rank() over([partition by col1] order by col2)
row_number() over([partition by col1] order by col2)

功能差不多,但是有細微的差別
rank排序時出現相等的值時會有並列,即值相等的兩條資料會有相同的序列值
row_number的排序不允許並列,即使兩條記錄的值相等也不會出現相等的排序值
dense_rank排序的值允許並列,但會跳躍的排序,像這樣:1,1,3,4,5,5,7.