1. 程式人生 > >spark-stream 讀取靜態檔案幾點注意

spark-stream 讀取靜態檔案幾點注意

spark-streaming在讀取hdfs或者本地目錄下的靜態檔案時需要注意的幾點:

一、讀取路徑為讀取檔案所在的上一級資料夾,和所讀取檔案統計目錄下的資料夾中的內容不會被讀取(path路徑只能寫到資料夾,否則報空指標錯誤,但程式不會停止)

二、讀取檔案資料時,把要處理的資料檔案put或者mv到指定的檔案加下,不然streaming沒有資料輸出

三、spark-streaming對put或者mv進來檔案資料只讀取一次,後續向已有的檔案中追加的資料不進行讀取

四、spark-streaming只對資料夾中新新增的檔案進行資料讀取,已有的檔案不讀取