1. 程式人生 > >最簡單逐行讀取hdfs檔案

最簡單逐行讀取hdfs檔案

val arrayRdd = spark.sparkContext.textFile("/dmLink/domain/").collect()
for(myDomain <- arrayRdd){
  println("*********************************" + myDomain)
  })

 

沒錯就這些程式碼就搞定了,由此可見spark的強大能力,你不需要用java構建讀取流,不僅程式碼多而且容易出錯,看我上面的程式碼多簡單!  spark讀取的時候會有sparkrdd  和sparkDataframe  兩種形式,前者是針對具體的資料,所以逐行就是用的rdd,後者是將資料抽象為表格的形式,所以不行!