HDFS操作及小文件合並

阿新 • • 發佈：2017-09-25

讀取輸入文件路徑 cal final .config block 輸出流上傳 txt文件

技術分享

小文件合並是針對文件上傳到HDFS之前

這些文件夾裏面都是小文件

技術分享

參考代碼

package com.gong.hadoop2;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FileUtil;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.PathFilter;
import org.apache.hadoop.io.IOUtils;
 
/**
 * function 合並小文件至 HDFS 
 * @author 小講
 *
 */
public class MergeSmallFilesToHDFS {
    private static FileSystem fs = null;
    private static FileSystem local = null;
    /**
     * @function main 
     * @param args
     * @throws IOException
     * @throws URISyntaxException
     */
    public 
 static void main(String[] args) throws IOException,
            URISyntaxException {
        list();
    }

    /**
     * 
     * @throws IOException
     * @throws URISyntaxException
     */
    public static void list() throws IOException, URISyntaxException {
        // 讀取hadoop文件系統的配置
        Configuration conf = new 
 Configuration();
        //文件系統訪問接口
        URI uri = new URI("hdfs://dajiangtai:9000");
        //創建FileSystem對象
        fs = FileSystem.get(uri, conf);
        // 獲得本地文件系統
        local = FileSystem.getLocal(conf);
        //過濾目錄下的 svn 文件，globStatus從第一個參數通配符合到文件，剔除滿足第二個參數到結果，因為PathFilter中accept是return!  
        FileStatus[] dirstatus = local.globStatus(new Path("D://data/73/*"),new RegexExcludePathFilter("^.*svn$"));
        //獲取73目錄下的所有文件路徑，註意FIleUtil中stat2Paths()的使用，它將一個FileStatus對象數組轉換為Path對象數組。
        Path[] dirs = FileUtil.stat2Paths(dirstatus);
        FSDataOutputStream out = null;
        FSDataInputStream in = null;
        for (Path dir : dirs) {
            String fileName = dir.getName().replace("-", "");//文件名稱
            //只接受日期目錄下的.txt文件，^匹配輸入字符串的開始位置,$匹配輸入字符串的結束位置,*匹配0個或多個字符。
            FileStatus[] localStatus = local.globStatus(new Path(dir+"/*"),new RegexAcceptPathFilter("^.*txt$"));
            // 獲得日期目錄下的所有文件
            Path[] listedPaths = FileUtil.stat2Paths(localStatus);
            //輸出路徑
            Path block = new Path("hdfs://dajiangtai:9000/middle/tv/"+ fileName + ".txt");
            // 打開輸出流
            out = fs.create(block);            
            for (Path p : listedPaths) {
                in = local.open(p);// 打開輸入流
                IOUtils.copyBytes(in, out, 4096, false); // 復制數據，IOUtils.copyBytes可以方便地將數據寫入到文件，不需要自己去控制緩沖區，也不用自己去循環讀取輸入源。false表示不自動關閉數據流，那麽就手動關閉。
                // 關閉輸入流
                in.close();
            }
            if (out != null) {
                // 關閉輸出流
                out.close();
            }
        }
        
    }

    /**
     * 
     * @function 過濾 regex 格式的文件
     *
     */
    public static class RegexExcludePathFilter implements PathFilter {
        private final String regex;

        public RegexExcludePathFilter(String regex) {
            this.regex = regex;
        }

        @Override
        public boolean accept(Path path) {
            // TODO Auto-generated method stub
            boolean flag = path.toString().matches(regex);
            return !flag;
        }

    }

    /**
     * 
     * @function 接受 regex 格式的文件
     *
     */
    public static class RegexAcceptPathFilter implements PathFilter {
        private final String regex;

        public RegexAcceptPathFilter(String regex) {
            this.regex = regex;
        }

        @Override
        public boolean accept(Path path) {
            // TODO Auto-generated method stub
            boolean flag = path.toString().matches(regex);
            return flag;
        }

    }
}

最後一點，分清楚hadoop fs 和dfs的區別

hadoop fs <args>

FS涉及可以指向任何文件系統（如本地，HDFS等）的通用文件系統。因此，當您處理不同的文件系統（如本地FS，HFTP FS，S3 FS等）時，可以使用它

hadoop dfs <args>

dfs非常具體到HDFS。將工作與HDFS有關。這已被棄用，我們應該使用hdfs dfs。


 hdfs   dfs <args>
與第二個相同，即適用於與HDFS相關的所有操作，並且是推薦的命令，而不是hadoop dfs

HDFS操作及小文件合並

讀取輸入文件路徑 cal final .config block 輸出流上傳 txt文件小文件合並是針對文件上傳到HDFS之前這些文件夾裏面都是小文件參考代碼 package com.gong.hadoop2

lucene創建索引以及索引文件合並

dex null menu test alt tor document oid stand 1 package test; 2 3 import java.io.File; 4 import java.io.IOException; 5 import

20161227xlVBA多文件合並計算

light handler frame manual lec nothing 計時器 put 並且 Sub NextSeven_CodeFrame() ‘應用程序設置 Application.ScreenUpdating = False Applicat

php 將多個txt文件合並成

dir() pan sca foreach 編碼方式 function gbk div 根據 function test() { $hostdir= iconv("utf-8","gbk","C:\Users\原萬裏\Desktop\日常筆記") ;

將ts文件合並為mp4命令

mp4 cmd 16px blog 文件合並 .com .cn spa size cmd； copy/b D:\*.ts D:\new.ts 參考：http://blog.sina.com.cn/s/blog_66b4f1180102uzxs.html將ts文件合並為m

把多個Excel文件合並到一個Excel文件的多個工作表（Sheet）裏

ger xlsx eww 右擊對話如果 work excel 對話框實現的功能是把多個Excel文件的第一個工作表（Sheet）合並到一個Excel文件的多個工作表裏，並且新工作表的名稱等於原Excel文件的文件名。開發環境Excel2007，但是Excel

nginx-http-concat資源文件合並模塊

org 就會資源目錄原生符號 sta style col 網頁中引入多個CSS和JS的時候，瀏覽器會發出很多(css個數+js個數)次網絡請求，甚至有的網頁中有數十個以上的CSS或JS文件，用戶體驗特別不好，正好可以利用nginx-http-concat nginx

將STM32 iap hex文件與app hex文件合並為一個hex文件

刪掉變慢文件 bsp 浪費時間 span 公司 bin post 日前公司產品需要增加遠程升級功能，boot loader程序寫好後交予生產部門使用時他們反饋每個產品程序需要刷寫兩次（一個boot loader 一個app程序），生產進度變慢浪費時間，於是乎研究如何將兩

xBIM 多個IFC文件合並

web .cn .html 日誌 exce 層次 excel 學習應用目錄 xBIM 應用與學習 (一） xBIM 應用與學習 (二） xBIM 基本的模型操作 xBIM 日誌操作 XBIM 3D 墻壁案例

C#將制定文件夾下的PDF文件合並成一個並輸出至指定路徑

earch object users user auto param 指定文件的 dict /// <summary> /// 將源路徑下的PDF合並至目標路徑下 /// </summary> /// <

java基礎 File與遞歸練習使用文件過濾器篩選將指定文件夾下的小於200K的小文件獲取並打印按層次打印(包括所有子文件夾的文件)

tor accep length 按層 col 不存在 args name style package com.swift.kuozhan; import java.io.File; import java.io.FileFilter; /*使用文件過濾器篩選將指定文

利用Python將多個excel文件合並為一個文件

技術分享 excel文件 AR tails bsp 合並 sdn clas pytho http://blog.csdn.net/betterfate/article/details/71123976 http://blog.csdn.net/d1240673769/

文件合並與歸檔

返回這一搜索密碼不用所有 ctrl+c 檢查系統進程內容1>文件將左邊的你內容覆蓋到右邊文件裏面，若右邊文件不存在，則會創建一個文件內容1>>文件：最加到文件的最後面左邊只要有輸出結果，必須是文件名或文件路徑 cat a

MR 文件合並

eric apach otp 輸出 apr 參數 fileinput exceptio leo 1 package com.euphe.filter; 2 3 import com.euphe.util.HUtils; 4 import com.euphe.ut

70. SequenceInputStream（文件合並）

enc 需求 fileinput 底層 string stat close ati 創建緩沖輸入字節流：----------------------| InputStream 輸入字節流的基類----------------| FileInputStream 讀取文件的

分享如何將多個pdf文件合並成一個pdf？

str 搜索 9.png 首頁 tar view 文件格式註意文檔生活就是零零散散組成的，我們的世界都是零散的，都是由零散的組成一個整體，工作中我們也會遇到很多PDF文件，不過大多都是零散的，接下來就來分享如何將多個PDF文件合並成一個PDF文件。 1在百度中去搜索關

Git文件合並

提交添加 ccf 操作 ack style push gin 推送兩個分支：主分支master，分支pre 1、將pre分支文件合並到master分支：　　切換到master分支下操作：　　合並文件夾【如果是文件則為a.text b.text】：　　git che

Linux菜鳥起飛之路【七】文件合並、歸檔和壓縮

div 結果執行 img src gzip 圖片 com .com 一、文件合並操作 1.覆蓋符號與追加符號 a）“>”代表將左邊文件的內容覆蓋右邊文件的內容，如果右邊文件不存在則創建這個文件 b）“>>”代表將左邊文件的內容追加到右邊文件中，如果右邊文

第五篇：文件合並與文件歸檔

方式文件的打包指定 name 輸出內容參數 tex -c 文件合並與文件歸檔 1.> 表示把>左邊命令的輸出內容覆蓋到右邊 >> 表示把>>左邊命令的輸出內容追加到右邊例：文件合並 cat a.txt b.txt>c.

git---怎樣將分支上的一個單文件合並到主分支上（master）

合並回來註意分享 checkout 上一個 mage reset commit 一、首先切換到主分支註意將分支上的數據全部提交以免造成數據沖突或丟失 git checkeout master 二、選擇要合並的文件 git checkout --patch

HDFS操作及小文件合並

相關推薦