spark中saveAsTextFile如何最終生成一個檔案

阿新 • • 發佈：2019-01-10

在預設的textfile中，如果從hdfs中讀取檔案，原始碼中預設的分割槽數是2，如果想改變分割槽數，可以在textfile中設定第二個引數“分割槽數”

一般而言，saveAsTextFile會按照執行task的多少生成多少個檔案，比如part-00000一直到part-0000n，n自然就是task的個數，亦即是最後的stage的分割槽數。那麼有沒有辦法最後只生成一個檔案，而不是成百上千個檔案了？

答案自然是有辦法。
在RDD上呼叫coalesce(1,true).saveAsTextFile()，意味著做完計算之後將資料彙集到一個分割槽，然後再執行儲存的動作，顯然，一個分割槽，Spark自然只起一個task來執行儲存的動作，也就只有一個檔案產生了。又或者，可以呼叫repartition(1)，它其實是coalesce的一個包裝，預設第二個引數為true。

事情最終就這麼簡單嗎？顯然不是。

你雖然可以這麼做，但代價是巨大的。因為Spark面對的是大量的資料，並且是並行執行的，如果強行要求最後只有一個分割槽，必然導致大量的磁碟IO和網路IO產生，並且最終執行reduce操作的節點的記憶體也會承受很大考驗。Spark程式會很慢，甚至死掉。
這往往是初學Spark的一個思維陷阱，需要改變原先那種單執行緒單節點的思維，對程式的理解要轉變多多個節點多個程序中去，需要熟悉多節點叢集自然產生多個檔案這種模式。
此外，saveAsTextFile要求儲存的目錄之前是沒有的，否則會報錯。所以，最好程式中儲存前先判斷一下目錄是否存在。

spark中saveAsTextFile如何最終生成一個檔案

spark中saveAsTextFile如何最終生成一個檔案

ffmpeg處理斷網時，生成一個檔案中遇到的問題

使用IO流將數據庫中數據生成一個文件，結果使用Notepad++打開部分數據結尾出現NUL

解決方案：VS解決方案中出現無法生成DLL檔案

從inputstream中讀pdf生成pdf檔案

linux中echo命令向一個檔案寫入內容

Python 中使用 ogr 生成 shape 檔案時的中文亂碼問題

在java中隨機生成一個無序且長度不大於10的字符串

PYTHON練習題二. 使用random中的randint函數隨機生成一個1~100之間的預設整數讓用戶鍵盤輸入所猜的數。

采用短網址生成方法,生成一個唯一的短字符串。然後保存到數據庫中，與源數據一一對應,新的系統，從數據庫中取到相應的數據（轉）

shell自動生成的檔案有一個問號的字尾

請寫一個python邏輯，計算一個檔案中的大寫字母數量

error LNK2005 --類的宣告和定義放在一個檔案中

使用solidity-flattener展開合約到一個檔案中

將資料庫中已有表匯入到powerDesigner生成pdm檔案

linux統計一個檔案中特定字元的個數

使用位元組流複製檔案過程中容易導致複製的檔案無法使用(如MP3檔案比原來大了一千多倍且音樂無法播放)很嚴重的一個bug

python spark中parquet檔案寫到hdfs，同時避免太多的小檔案（block小檔案合併）

VS中定義後期生成事件，希望生成的目標檔案拷貝到指定目錄當中

python學習之網站的編寫（HTML，CSS，JS）（十一）----------如何利用其它html檔案中的CSS（也就是可以將共同的地方提取出來，放大一個檔案中，利於使用）

spark中saveAsTextFile如何最終生成一個檔案

相關推薦