1. 程式人生 > >離線輕量級大資料平臺Spark之中文字元顯示問題的解決

離線輕量級大資料平臺Spark之中文字元顯示問題的解決

問題:spark讀取文字檔案轉化成JavaRDD後發現中文字元顯示亂碼。

在spark-shell環境裡執行:System.getProperty("file.encoding"),返回GB2312,和文字檔案UTF-8編碼不一樣。

解決:在spark的Java程式碼中加入字符集設定即可。

//第一步:設定Java環境字符集,避免中文亂碼
Properties pps=System.getProperties();  
pps.setProperty("file.encoding","UTF-8");