1. 程式人生 > >hive: 空值、NULL判斷、空值的處理

hive: 空值、NULL判斷、空值的處理

hive中空值判斷基本分兩種

(1)NULL 與 \N

hive在底層資料中如何儲存和標識NULL,是由 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 引數控制的

比如:

1.設定 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 

則:底層資料儲存的是'\N',通過查詢顯示的是'NULL'

這時如果查詢為空值的欄位可通過 語句:a is null 或者 a='\\N'

          2.設定 alter tablename SET SERDEPROPERTIES('serialization.null.format' = 'NULL'); 

則:底層資料儲存的是'NULL',通過查詢顯示的是'NULL'

這時如果查詢為空值的欄位可通過 語句:a is null 或者 a='NULL'

(2)'' 與 length(xx)=0

'' 表示的是欄位不為null且為空字串,此時用 a is null 是無法查詢這種值的,必須通過 a=''  或者 length(a)=0 查詢

hive 空值的處理

hive的使用中不可避免的需要對null、‘’(空字串)進行判斷識別。但是hive有別於傳統的資料庫。

下面一一說明:

(1)不同資料型別對空值的儲存規則

int與string型別資料儲存,null預設儲存為 \N;

string型別的資料如果為"",儲存則是"";

另外往int型別的欄位插入資料“”時,結果還是\N。

(2)不同資料型別,空值的查詢

對於int可以使用is null來判斷空;

而對於string型別,條件is null 查出來的是\N的資料;而條件 =’’,查詢出來的是""的資料。

例如:

查詢1:select b.id,b.name from b

結果1:

1        lisi

2         

3   NULL

查詢2:select b.id,b.name from b where b.name isnull;

結果2:

3        NULL

查詢3:select b.id,b.name from b where b.name=’’;

結果3:

2  

查詢4:select b.id,b.name from b where b.name=’’or b.name is null;

結果4:

2  

3   NULL

查詢5:select b.id,b.name from b where b.name<>’’and b.name is not null;

結果5:

1        lisi

查詢6:select b.id,b.name from b where length(b.name)<>0and b.name is not null;

結果6:

1       lisi

結論:判斷空時要根據實際的儲存來進行判斷。在開發過程中如果需要對空進行判斷,一定得知道儲存的是哪種資料。

有個處理空的小技巧,Hive給出一種並非完美的解決方法——自定義底層用什麼字元來表示NULL:

使用:ALTER TABLE b SET SERDEPROPERTIES ('serialization.null.format'='');

這句話的意思是讓null和''等價,也就是讓null不顯示,因為null對開發來說不好操作,可能不同地方代表意義不同,而且轉碼可能也會有問題,所有用''代替。