1. 程式人生 > >Hadoop 常用命令

Hadoop 常用命令

用法: hadoop archive -archiveName NAME <src>* <dest>

COMMAND_OPTION Description
-archiveName NAME 建立的歸檔檔名字
src 使用正則表示式的檔案系統的路徑名。
dest 將包含壓縮檔案的目標目錄。

distcp

用法: hadoop distcp <srcurl> <desturl>

COMMAND_OPTION Description
srcurl 源URL
desturl 目的 Url

fs

用法: hadoop fs [

GENERIC_OPTIONS] [COMMAND_OPTIONS]

執行一個通用的檔案系統的使用者客戶端。

fsck

執行HDFS檔案系統檢查工具。的詳細資訊,請參閱fsck的

用法: hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

COMMAND_OPTION Description
<path> 檢查的起點檔案系統路徑
-move 移動損壞的檔案到 / lost + found 
-delete 刪除損壞檔案
-openforwrite 列印在wirte的檔案
-files 列印檢查過的檔案
-blocks 列印block report.
-locations 列印 每個block的location  
-racks 打印出的網路拓撲結構的資料節點的位置。

fetchdt 獲取NameNode的代表團令牌從。請參閱fetchdt,瞭解更多資訊。

用法: hadoop fetchdt [GENERIC_OPTIONS] [--webservice <namenode_http_addr>] <path>

COMMAND_OPTION Description
<fileName> File name to store the token into.
--webservice <https_address> 使用http協議取代rpc 

jar 執行一個jar檔案。使用者可以在一個jar檔案捆綁他們的Map Reduce程式碼和執行,使用這個命令。

用法: hadoop jar <jar> [mainClass] args...

streaming作業是通過這個命令執行。例項可以被稱為 流的例子

Word count 統計的例子還使用jar命令來執行。它可以被稱為 wordcount的例

job

和Map Reduce作業互動的命令。

用法: hadoop job [GENERIC_OPTIONS] [-submit <job-file>] | [-status <job-id>] | [-counter <job-id> <group-name> <counter-name>] | [-kill <job-id>] | [-events <job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]] | [-kill-task <task-id>] | [-fail-task <task-id>] | [-set-priority <job-id> <priority>]

COMMAND_OPTION Description
-submit <job-file> Submits the job.
-status <job-id> 列印 the map and reduce的完成百分比和 所有計數器。
-counter <job-id> <group-name> <counter-name> 列印計數器的值。
-kill <job-id> 殺死任務
-events <job-id> <from-event-#> <#-of-events> 列印給定範圍內jobtracker接收到的事件細節
-history [all] <jobOutputDir> -history <jobOutputDir> 列印失敗,被殺死的詳情,更多的關於一個作業的細節比如成功的任務,做過的任務嘗試等資訊可以通過指定[all]選項檢視。
-list [all] -list all顯示所有工作。 -list  僅顯示尚未完成的工作。
  
-kill-task <task-id> 殺死任務。被殺死的任務不會不利於失敗嘗試。
-fail-task <task-id> 使任務失敗。被失敗的任務會對失敗嘗試不利。
-set-priority <job-id> <priority> 改變工作的優先順序,允許的值有  VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW


pipes

執行一個pipes job.

用法: hadoop pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces <num>]

COMMAND_OPTION Description
-conf <path> Configuration for job
-jobconf <key=value>, <key=value>, ... 增加或者覆蓋任務的配置 
-input <path> Input 目錄
-output <path> Output 目錄
-jar <jar file> Jar 檔名
-inputformat <class> InputFormat的型別
-map <class>   Map的型別
-partitioner <class>   Partitioner的型別
-reduce <class>   Reduce 的型別
-writer <class>  RecordWriter 的型別
-program <executable> 可執行檔案的URI
-reduces <num>   reduces的數目

queue

命令互動,並檢視作業佇列資訊

用法: hadoop queue [-list] | [-info <job-queue-name> [-showJobs]] | [-showacls]

COMMAND_OPTION Description
-list 獲取系統中配置的作業佇列的列表。除了與作業佇列排程相關的資訊。
 
-info <job-queue-name> [-showJobs] 顯示作業佇列中的資訊和相關的排程資訊,特別是工作佇列。如果-showJobs選項是目前的工作提交到特定的工作佇列顯示的列表。
 
-showacls 顯示佇列名稱和允許當前使用者的操作相關的佇列。這個列表只顯示使用者可以訪問的。  

version

列印版本

用法: hadoop version


CLASSNAME hadoop指令碼可以用來呼叫任何類。

用法: hadoop CLASSNAME

執行名為CLASSNAME的類。

classpath 列印類路徑中需要得到Hadoop的jar和所需的庫。

用法: hadoop classpath