上傳檔案到HDFS，對檔案進行壓縮

阿新 • • 發佈：2019-02-13

hadoop計算需要在hdfs檔案系統上進行，檔案上傳到hdfs上通常有三種方法：a hadoop自帶的dfs服務，put；b hadoop的API，Writer物件可以實現這一功能；c 呼叫OTL可執行程式，資料從資料庫直接進入hadoop

hadoop計算需要在hdfs檔案系統上進行，因此每次計算之前必須把需要用到的檔案(我們稱為原始檔案)都上傳到hdfs上。檔案上傳到hdfs上通常有三種方法：

a hadoop自帶的dfs服務，put；

b hadoop的API，Writer物件可以實現這一功能；

c 呼叫OTL可執行程式，資料從資料庫直接進入hadoop

由於存在ETL層，因此第三種方案不予考慮

將a、b方案進行對比，如下：

1 空間：方案a在hdfs上佔用空間同本地，因此假設只上傳日誌檔案，則儲存一個月日誌檔案將消耗掉約10T空間，如果加上這期間的各種維表、事實表，將佔用大約25T空間

方案b經測試，壓縮比大約為3~4:1，因此假設hdfs空間為100T，原來只能儲存約4個月的資料，現在可以儲存約1年

2 上傳時間：方案a的上傳時間經測試，200G資料上傳約1小時

方案b的上傳時間，程式不做任何優化，大約是以上的4~6倍，但存在一定程度提升速度的餘地

3 運算時間：經過對200G資料，大約4億條記錄的測試，如果程式以IO操作為主，則壓縮資料的計算可以提高大約50%的速度，但如果程式以記憶體操作為主，則只能提高5%~10%的速度

4 其它：未壓縮的資料還有一個好處是可以直接在hdfs上檢視原始資料。壓縮資料想看原始資料只能用程式把它導到本地，或者利用本地備份資料

壓縮格式：按照hadoop api的介紹，壓縮格式分兩種：BLOCK和RECORD,其中RECORD是隻對value進行壓縮，一般採用BLOCK進行壓縮。

對壓縮檔案進行計算，需要用SequenceFileInputFormat類來讀入壓縮檔案，以下是計算程式的典型配置程式碼：

JobConf conf = new JobConf(getConf(), log.class);
    conf.setJobName(”log”);
    conf.setOutputKeyClass(Text.class);//set the map output key type
    conf.setOutputValueClass(Text.class);//set the map output value type

    conf.setMapperClass(MapClass.class);
    //conf.setCombinerClass(Reduce.class);//set the combiner class ,if havenot, use Recuce class for default
    conf.setReducerClass(Reduce.class);
    conf.setInputFormat(SequenceFileInputFormat.class);//necessary if use compress

接下來的處理與非壓縮格式的處理一樣

上傳檔案到HDFS，對檔案進行壓縮

上傳檔案到HDFS，對檔案進行壓縮

webupload上傳外掛中，單個檔案上傳處理

解決FileUpLoad上傳控制元件，限制檔案上傳大小

uploadify上傳出現問題，大檔案不能上傳

上傳圖片時，在頁面進行預覽

java使用Jsch實現遠端操作linux伺服器進行檔案上傳、下載，刪除和顯示目錄資訊

HDFS操作實驗（hdfs檔案上傳、使用JavaAPI判斷檔案存在，檔案合併）

將本地文字檔案上傳到HDFS上，然後匯入hive/impala對應表中

scala和java解壓zip的檔案，並上傳到hdfs伺服器

檔案上傳下載時，在form表單中設定屬性enctype=“multipart/form-data”的情況下，如何獲取表單提交的值？

django FileField檔案上傳重新命名，ModelForm驗證儲存

java爬蟲之入門基礎 java讀取txt檔案，對字串進行操作後匯出txt檔案

java jsch實現sftp檔案上傳,並且控制上傳的速度，同時監控上傳進度

使用elementUI的時候，使用Upload 上傳的時候，使用 list-type 屬性來設定檔案列表的樣式，before-upload方法失效

Linux環境下，多圖片上傳提示沒有這樣的檔案或目錄解決方式

使用jquery的ajax提交檔案上傳。FormData， beforeSend

form檔案上傳、下載，獲取返回值

搭建jmeter測試環境，定義效能測試流程，對web進行效能測試，並上傳效能測試結果截圖

讓xadmin後臺顯示上傳的圖片，檔案----DJANGO

檔案的上傳和下載—上傳的實現，注意事項

上傳檔案到HDFS，對檔案進行壓縮

相關推薦