從CSV檔案匯入Hive出現中文亂碼問題解決

阿新 • • 發佈：2019-01-19

關於HIVE中文亂碼問題的解決辦法，網上有很多帖子，然而很多都是基於LINUX終端顯示字元的修改，其實上對於一些條件下的HIVE中文亂碼問題是無法解決的，如從CSV檔案匯入到HIVE中出現的中文亂碼問題。

大家都知道，HIVE原生的字元編碼是採用UTF-8方式的，這是支援中文的。然而在從ORACLE匯出CSV檔案，注入到HIVE表中的時候，就發現輸入時出現中文亂碼。按照HIVE中文亂碼的解決思路(基於系統字元編碼的修改方式)總是沒有成功。

後來考慮到HIVE將資料是存放在HDFS上的，並以序列化的方式存在，因此應該考慮HDFS中文亂碼的問題，這一查，資料還不少。也看到了核心的問題所在：hadoop涉及輸出文字的預設輸出編碼統一用沒有BOM的UTF-8的形式

，但是對於中文的輸出window系統預設的是GBK，有些格式檔案例如CSV格式的檔案用excel開啟輸出編碼為沒有BOM的UTF-8檔案時，輸出的結果為亂碼，只能由UE或者記事本開啟才能正常顯示。因此將hadoop預設輸出編碼更改為GBK成為非常常見的需求。

考慮到這個問題，於是想著在HIVE中序列化的時候需要指定一下字元編碼，終於找到相關的解決思路，這是HIVE issue解決辦法中找到的。https://issues.apache.org/jira/browse/HIVE-7142。

依照這個文件的說明，對指定的表進行設定，即設定序列化編碼為GBK，以WINDOW拷貝匯入的資料編碼相匹配。

ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK');

通過這樣設定，果然實現一直困擾多時的HIVE中文亂碼問題。