hadoop mapreduce開發實踐之HDFS文件分發by streaming

阿新 • • 發佈：2018-01-27

submit ast nap direct 如同 lis slots cal ado

1、分發HDFS文件（-cacheFile）

需求：wordcount（只統計指定的單詞），但是該文件非常大,可以先將該文件上傳到hdfs，通過-cacheFile的方式進行分發；

-cachefile hdfs://host:port/path/to/file#linkname #選項在計算節點上緩存文件，streaming程序通過./linkname的方式訪問文件。

思路：mapper和reducer程序都不需要修改，只是在運行streaming的時候需要使用-cacheFile 指定hdfs上的文件；

1.1、streaming命令格式

$HADOOP_HOME/bin/hadoop jar hadoop-streaming.jar     -jobconf mapred.job.name="streaming_wordcount"     -jobconf mapred.job.priority=3     -input /input/     -output /output/     -mapper "python mapper.py whc"     -reducer "python reducer.py"     -cacheFile "hdfs://master:9000/cache_file/wordwhite#whc"
    -file ./mapper.py     -file ./reducer.py

註：-cacheFile "hdfs://master:9000/cache_file/wordwhite#whc" whc表示在hdfs上該文件的別名，在-mapper "python mapper.py whc"就如同使用本地文件一樣。

1.2、上傳wordwhite

$ hadoop fs -mkdir /input/cachefile
$ hadoop fs -put wordwhite  /input/cachefile
$ hadoop fs -ls /input/cachefile
Found 1 items
-rw-r--r--   1 hadoop supergroup         12 2018-01-26 15:02 /input/cachefile/wordwhite
$ hadoop fs -text hdfs://localhost:9000/input/cachefile/wordwhite
the
and
had

1.3 run_streaming程序

mapper和reducer程序參考本地分發實例

$ vim runstreaming_cachefile.sh 

#!/bin/bash

HADOOP_CMD="/home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.13.0/bin/hadoop"
STREAM_JAR_PATH="/home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.13.0/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.13.0.jar"

INPUT_FILE_PATH="/input/The_Man_of_Property"
OUTPUT_FILE_PATH="/output/wordcount/wordwhitecachefiletest"

$HADOOP_CMD jar $STREAM_JAR_PATH                 -input $INPUT_FILE_PATH                 -output $OUTPUT_FILE_PATH                 -jobconf "mapred.job.name=wordcount_wordwhite_cachefile_demo"                 -mapper "python mapper.py WHF"                 -reducer "python reducer.py"                 -cacheFile "hdfs://localhost:9000/input/cachefile/wordwhite#WHF"                 -file ./mapper.py                 -file ./reducer.py

1.4、執行程序

$ ./runstreaming_cachefile.sh 
18/01/26 15:38:27 WARN streaming.StreamJob: -file option is deprecated, please use generic option -files instead.
18/01/26 15:38:28 WARN streaming.StreamJob: -cacheFile option is deprecated, please use -files instead.
18/01/26 15:38:28 WARN streaming.StreamJob: -jobconf option is deprecated, please use -D instead.
18/01/26 15:38:28 INFO Configuration.deprecation: mapred.job.name is deprecated. Instead, use mapreduce.job.name
packageJobJar: [./mapper.py, ./reducer.py, /tmp/hadoop-unjar1709565523181962236/] [] /tmp/streamjob6164905989972408041.jar tmpDir=null
18/01/26 15:38:29 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
18/01/26 15:38:29 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
18/01/26 15:38:31 INFO mapred.FileInputFormat: Total input paths to process : 1
18/01/26 15:38:31 INFO mapreduce.JobSubmitter: number of splits:2
18/01/26 15:38:32 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1516345010544_0012
18/01/26 15:38:32 INFO impl.YarnClientImpl: Submitted application application_1516345010544_0012
18/01/26 15:38:32 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1516345010544_0012/
18/01/26 15:38:32 INFO mapreduce.Job: Running job: job_1516345010544_0012
18/01/26 15:38:40 INFO mapreduce.Job: Job job_1516345010544_0012 running in uber mode : false
18/01/26 15:38:40 INFO mapreduce.Job:  map 0% reduce 0%
18/01/26 15:38:49 INFO mapreduce.Job:  map 50% reduce 0%
18/01/26 15:38:50 INFO mapreduce.Job:  map 100% reduce 0%
18/01/26 15:38:57 INFO mapreduce.Job:  map 100% reduce 100%
18/01/26 15:38:57 INFO mapreduce.Job: Job job_1516345010544_0012 completed successfully
18/01/26 15:38:57 INFO mapreduce.Job: Counters: 49
    File System Counters
        FILE: Number of bytes read=73950
        FILE: Number of bytes written=582590
        FILE: Number of read operations=0
        FILE: Number of large read operations=0
        FILE: Number of write operations=0
        HDFS: Number of bytes read=636501
        HDFS: Number of bytes written=27
        HDFS: Number of read operations=9
        HDFS: Number of large read operations=0
        HDFS: Number of write operations=2
    Job Counters 
        Launched map tasks=2
        Launched reduce tasks=1
        Data-local map tasks=2
        Total time spent by all maps in occupied slots (ms)=12921
        Total time spent by all reduces in occupied slots (ms)=5641
        Total time spent by all map tasks (ms)=12921
        Total time spent by all reduce tasks (ms)=5641
        Total vcore-milliseconds taken by all map tasks=12921
        Total vcore-milliseconds taken by all reduce tasks=5641
        Total megabyte-milliseconds taken by all map tasks=13231104
        Total megabyte-milliseconds taken by all reduce tasks=5776384
    Map-Reduce Framework
        Map input records=2866
        Map output records=9243
        Map output bytes=55458
        Map output materialized bytes=73956
        Input split bytes=198
        Combine input records=0
        Combine output records=0
        Reduce input groups=3
        Reduce shuffle bytes=73956
        Reduce input records=9243
        Reduce output records=3
        Spilled Records=18486
        Shuffled Maps =2
        Failed Shuffles=0
        Merged Map outputs=2
        GC time elapsed (ms)=360
        CPU time spent (ms)=3910
        Physical memory (bytes) snapshot=719896576
        Virtual memory (bytes) snapshot=8331550720
        Total committed heap usage (bytes)=602931200
    Shuffle Errors
        BAD_ID=0
        CONNECTION=0
        IO_ERROR=0
        WRONG_LENGTH=0
        WRONG_MAP=0
        WRONG_REDUCE=0
    File Input Format Counters 
        Bytes Read=636303
    File Output Format Counters 
        Bytes Written=27
18/01/26 15:38:57 INFO streaming.StreamJob: Output directory: /output/wordcount/wordwhitecachefiletest

1.5、查看結果

$ hadoop fs -ls /output/wordcount/wordwhitecachefiletest
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2018-01-26 15:38 /output/wordcount/wordwhitecachefiletest/_SUCCESS
-rw-r--r--   1 hadoop supergroup         27 2018-01-26 15:38 /output/wordcount/wordwhitecachefiletest/part-00000

$ hadoop fs -text /output/wordcount/wordwhitecachefiletest/part-00000
and 2573
had 1526
the 5144

以上就完成了分發HDFS上的文件並指定單詞的wordcount.

2、hadoop streaming 語法參考

http://blog.51cto.com/balich/2065419

hadoop mapreduce開發實踐之HDFS文件分發by streaming

submit ast nap direct 如同 lis slots cal ado 1、分發HDFS文件（-cacheFile）需求：wordcount（只統計指定的單詞），但是該文件非常大,可以先將該文件上傳到hdfs，通過-cacheFile的方式進行分發； -ca

hadoop mapreduce開發實踐之HDFS壓縮文件（-cacheArchive）

delete info dset odi .gz .tar.gz package cal 2.6.0 1、分發HDFS壓縮文件（-cacheArchive）需求：wordcount（只統計指定的單詞【the,and,had...】），但是該文件存儲在HDFS上的壓縮文件,

hadoop mapreduce開發實踐之輸出數據壓縮

實踐 shuff file apr 存儲壓縮 ras 最終 item 1、hadoop 輸出數據壓縮 1.1、為什麽要壓縮？輸出數據較大時，使用hadoop提供的壓縮機制對數據進行壓縮，可以指定壓縮的方式。減少網絡傳輸帶寬和存儲的消耗；可以對map的輸出進行壓縮（m

Hadoop之HDFS文件操作

文件操作命令 help 文件夾利用 jpg 查看作文 rgs fill 摘要：Hadoop之HDFS文件操作常有兩種方式。命令行方式和JavaAPI方式。本文介紹怎樣利用這兩種方式對HDFS文件進行操作。關鍵詞：HDFS文件命令行

Apache PDFbox開發指南之PDF文件讀取

相關文章： 1、介紹 Apache PDFbox是一個開源的、基於Java的、支援PDF文件生成的工具庫，它可以用於建立新的PDF文件，修改現有的PDF文件，還可以從PDF文件中提取所需的內容。Apache PDFBox還包含了數個命令列工具。

jplogicv1.0開發開發案例之知識庫文件資訊索引檢索（類仿百度搜索、類google搜尋）

基於很多專案中都都可能會使用到針對海量文件資訊進行實時檢索的需要！對於使用者而言比較習慣於百度搜索的使用！本文針對海量文件檢索的需求進行描述！針對海量的文件資料我們需要做到最起碼兩點：1、高效索引 2、高效搜尋。當然做到這兩點我們需要在我們的專案中完成多道工序，根據索引框

Hadoop Shell命令（基於linux操作系統上傳下載文件到hdfs文件系統基本命令學習）

指南統計信息 ... err nor 清空 ext -- als Apache-->hadoop的官網文檔命令學習：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 調用文件系統

Hadoop IO操作之基於文件的數據結構

定時任務二進制包括大數據文件組成 key 上傳刪除大小　　HDFS和MR主要針對大數據文件來設計，在小文件處理上效率低.解決方法是選擇一個容器,將這些小文件包裝起來,將整個文件作為一條記錄,可以獲取更高效率的儲存和處理,避免多次打開關閉流耗費計算資源.hdfs

【Unity遊戲開發】tolua之wrap文件的原理與使用

nop 微信 attr hiera n) 接下來 system 作者 prim 　　本文內容轉載自：https://www.cnblogs.com/blueberryzzz/p/9672342.html 。非常感謝原作者慷慨地授權轉載，比心！@blueberryzzz

iOS 開發之 pdf 文件的載入與瀏覽的 4 種方式

前言在我們的開發中，有些像電子書型別的app的開發會涉及到pdf文件的載入與展示。由於筆者專案中正好涉及到這塊，於是將pdf常用的幾種載入方式做個總結。以供後面可能用到的同學做個參考。正文通常我們用到的pdf文件的載入方式有4種： UIWebView載入本地或者

使用Android Studio進行NDK開發和除錯(gradle-experimental之官方文件的翻譯說明)

版本更新環境要求 Gradle（參照三裡邊的版本要求） Android NDK r10e Build Tool在19.0.0以上的SDK Gradle版本要求不同版本的Experimental Plugin需要不同版本的gradle

Hadoop HDFS 文件塊大小

文件的塊大小 0ms alt hadoop 傳輸大於技術分享 dfs HDFS 文件塊大小 HDFS中的文件在物理上是分塊存儲（block），塊的大小可以通過配置參數( dfs.blocksize)來規定，默認大小在hadoop2.x版本中是128M，老版本中是64

記一次mapreduce讀取不到輸入文件的問題

mapreduce 過濾器hdfs上輸入文件所在包含兩個目錄，分別是： /20170503/shoplast/ /20170503/shop/但是我想過濾掉shop，只把shoplast作為輸入故我實現了過濾器如下： public static class Fi

openssl之BIO系列之12---文件描寫敘述符(fd)類型BIO

scrip 所在 pri 返回 div static 實現論壇 res 文件描寫敘述符(fd)類型BIO ---依據openssl doc\crypto\bio_s_fd.pod翻譯和自己的理解寫成（作者：DragonKing [email

Python之路-文件操作（py）

句柄接口編碼操作 strong span 操作系統使用 color 文件操作的基本步驟: 　　1.打開文件:f=open(‘filename‘),with open(‘filename‘) as f 　　2.操作文件:增，刪，改，查　　3.關閉文件:f.close

[轉載]熱血傳奇之資源文件與地圖的讀取分析

thead open pda exc height 保留字 img 單位累加 Mr.Johness阿何的程序人生JMir——Java版熱血傳奇2之資源文件與地圖　　我雖然是90後，但是也很喜歡熱血傳奇2(以下簡稱“傳奇”)這款遊戲。　　進入程序員行業後自己也對傳奇客戶端實

HDFS Java Client對hdfs文件增刪查改

apache pom.xml onf != open readline inpu test .get step1:增加依賴 pom.xml ... <!-- https://mvnrepository.com/artifact/org

Embeded linux 之 cifs文件系統

intern server 安裝查看 b2c 接口發現 vm t cifs 待整理轉自： http://blog.csdn.net/yuanbinquan/article/details/51734705 簡介 CIFS (Common Internet File S

VELT-0.1.6開發：載入根文件系統

baidu 轉載裏的 python lin ide arch 包含 -s 快樂蝦http://blog.csdn.net/lights_joy/（QQ群：Visual EmbedLinux Tools 375515651）歡迎轉載，但請保留作者信息VELT的全稱是Vis

比較Apache Hadoop生態系統中不同的文件格式和存儲引擎的性能

報告 indent 然而 microsoft 要花 ont 目錄總結千兆這篇文章提出了在Apache Hadoop生態系統中對比一些當前流行的數據格式和可用的存儲引擎的性能：Apache Avro，Apache Parquet，Apache HBase和Apache

hadoop mapreduce開發實踐之HDFS文件分發by streaming

1.1、streaming命令格式

1.2、上傳wordwhite

1.3 run_streaming程序

1.4、執行程序

1.5、查看結果

2、hadoop streaming 語法參考

相關推薦