1. 程式人生 > >spark 載入多個目錄; RDD輸出到hdfs檔案壓縮

spark 載入多個目錄; RDD輸出到hdfs檔案壓縮

(1)  spark textFile載入多個目錄:

  其實很簡單,將多個目錄(對應多個字串),用,作為分隔符連線起來

   val inputPath = List("hdfs://localhost:9000/test/hiveTest", "hdfs://localhost:9000/test/hiveTest2")
                    .mkString(",")

  sparkContext
      .textFile( inputPath )

(2) spark  rdd  saveAsTextFile 輸出到HDFS 檔案壓縮

    rdd.saveAsTextFile( "hdfs://localhost:9000/test/out" ) //正常不壓縮


    rdd.saveAsTextFile( "hdfs://localhost:9000/test/outGzip", classOf[ GzipCodec ] )    //Gzip壓縮輸出


    rdd.saveAsTextFile( "hdfs://localhost:9000/test/outBzip2", classOf[ BZip2Codec ] )  //bzip2 壓縮輸出

  hadoop 檔案壓縮格式對比:http://www.echojb.com/web-application-server/2017/07/10/449381.html