1. 程式人生 > >hadoop2.7.2編譯成功的一個配置

hadoop2.7.2編譯成功的一個配置

JDK1.8

protoc 2.5.0

findbugs1.3.9

mavent3.3.9

hadoop2.7.2原始碼

如下圖:


windows遠端除錯hadoop 


--在hfds上執行ls

 bin/hdfs dfs -ls /data/input

https://my.oschina.net/leejun2005/blog/122775

http://www.cnblogs.com/cstzhou/p/5495434.html

http://blog.csdn.net/skywalker_only/article/details/25539115

http://www.cnblogs.com/duking1991/p/6056923.html

加入檔案:

http://blog.csdn.net/xiaoxiangzi222/article/details/52757168

hdfs 命令  http://blog.csdn.net/liuwenbo0920/article/details/43343983

8.向hadoop集群系統提交第一個mapreduce任務(wordcount)

進入本地hadoop目錄(/usr/hadoop)

1、  bin/hdfs dfs -mkdir -p /data/input在虛擬分散式檔案系統上建立一個測試目錄/data/input

2、  hdfs dfs -put README.txt  /data/input  將當前目錄下的README.txt 檔案複製到虛擬分散式檔案系統中

3、  bin/hdfs dfs -ls /data/input    檢視檔案系統中是否存在我們所複製的檔案


執行jar

bin/hadoop jar  ~/code/wc.jar wordcount.WordCount  /data/input ~/hadoopResult

yarn框架原理與運作機制 https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

MapFile是排序後的SequenceFile,通過觀察其目錄結構可以看到MapFile由兩部分組成,分別是data和index.

index(index作為檔案的資料索引,主要記錄了每個Record的key值,以及該Record在檔案中的偏移位置

)

必備引數:輸出,輸入路徑;類來自那個jar
setJarByClass---說明是設定的類是從那個jar過來的。
這裡需要注意的是sequenceFile是二進位制檔案,cat more less 之類的命令都不能以文字形式顯示順序檔案的內容,需要用到fs命令的-text選項,該選項可以檢視檔案的程式碼,檢測出檔案的型別並適當的轉化成文字
http://lbingkuai.iteye.com/blog/1504130

job.setInputFormatClass(WholeFileInputFormat.class);----isSplitable,createRecordReader設定怎麼樣把splits分割成記錄,同理

job.setOutputFormatClass(SequenceFileOutputFormat.class);---將使用者提供的key/value對寫入特定格式的檔案中

**************************************************************************************************************************************

hdfs檔案操作:http://blog.csdn.net/mmd0308/article/details/74276564
//獲取檔案系統 
FileSystem fs = FileSystem.get(conf); 


//上傳檔案到hdfs上
fs.copyFromLocalFile(new Path("/home/hzq/jdk1.8.tar.gz"),new Path("/demo"));


//下載到本地 
fs.copyToLocalFile(new Path("/java/jdk1.8.tar.gz"),new Path("/home/hzq/"));


// 刪除hdfs上的檔案
fs.delete(new Path("/demo/jdk1.8.tar.gz"),true); 


//建立test1資料夾
 fs.mkdirs(new Path("/test1"));   


//列出hdfs上所有的檔案或資料夾:
// “listFiles“列出的是hdfs上所有檔案的路徑,不包括資料夾。根據你的設定,支援遞迴查詢。
//”listStatus“列出的是所有的檔案和資料夾,不支援遞迴查詢。如許遞迴,需要自己實現。
       // true 表示遞迴查詢  false 不進行遞迴查詢
        RemoteIterator<LocatedFileStatus> iterator = fs.listFiles(new Path("/"), true);
        while (iterator.hasNext()){
            LocatedFileStatus next = iterator.next();
            System.out.println(next.getPath());
        }
        System.out.println("----------------------------------------------------------");
        FileStatus[] fileStatuses = fs.listStatus(new Path("/"));
        for (int i = 0; i < fileStatuses.length; i++) {
            FileStatus fileStatus = fileStatuses[i];
            System.out.println(fileStatus.getPath());
        }

相關推薦

hadoop2.7.2編譯成功一個配置

JDK1.8 protoc 2.5.0 findbugs1.3.9 mavent3.3.9 hadoop2.7.2原始碼 如下圖: windows遠端除錯hadoop  --在hfds上執行ls  bin/hdfs dfs -ls /data/input https

eclipse配置hadoop2.7.2開發環境

amt res project star ast text package fin super   先安裝並啟動hadoop,怎麽弄見上文http://www.cnblogs.com/wuxun1997/p/6847950.html。這裏說下怎麽設置IDE來開發hadoop

CentOS7安裝hadoop2.7.2 實現偽分散式 測試成功(親測教程)

CentOS7安裝hadoop2.7.2 實現偽分散式 測試成功(親測教程)   CentOS7安裝hadoop2.7.2 實現偽分散式 測試成功(親測教程) 經過幾天的嘗試,終於在CentOS7下安裝hadoop,實現偽分散式,並且測試成功 現在簡要的回訴一篇,以方便記憶

IntelliJ IDEA2018配置Hadoop2.7.2閱讀環境並執行偽分散式

1. 下載hadoop原始碼並編譯 $ sudo tar -zxvf hadoop-2.7.2-src.tar.gz 將解壓縮的原始碼包,複製到/usr/local目錄下: $ sudo cp -r

Hadoop2.7.2高可用(HA)環境下Hbase高可用(HA)環境的搭建(在Ubuntu14.04下以root使用者進行配置

Hadoop2.7.2高可用(HA)環境下Hbase高可用(HA)環境的搭建 轉載請註明出處:http://blog.csdn.net/qq_23181841/article/details/75095370 (在Ubuntu14.04下以root使用者進行配置) 下載

hadoop學習之HIVE(3.2):hadoop2.7.2配置hiveserver2啟動遠端連線

./hive只是啟動本地客戶端,往往用來測試,我們可以啟動hive server2伺服器用於遠端連線,方便開發。 前提是配置好hadoop和hive 1,開啟hive server服務:bin/hiveserver2 可檢視服務是否開啟:netstat -nplt |

VirtualBox5.0.18+CentOS7.2+Hadoop2.7.2配置與開發(2)用YARN完成WordCount作業

執行WordCount作業 步驟: 進入hadoop目錄,刪除input目錄和output目錄(如果有); 啟動hdfs系統,ResourceManager和NodeManager。 $cd   /usr/hadoop-2.7.2 $sbin/start-dfs.sh $s

MAC下Hadoop2.7.2配置

一、檢測JDK版本 1、java -version k-MacBook-Pro:~ $ java -version java version "1.8.0_60" Java(TM) SE Runtime Environment (build 1.8.0_60-b27

Ubuntu14.04全分散式安裝hadoop2.7.2(三)jdk環境配置+hadoop單機

前文回顧: 三臺電腦,一臺做主機,兩臺做從機。主機名分別是 master,slave1,slave2,ip分別是192.168.235.1~3 系統:ubuntu14.04 jdk:1.8.0_91 Hadoop: 2.7.2 (stable)

Centos6.77.2系統中 github配置及基本使用

github配置及基本使用1.安裝 yum install git git-gui 2.生成密鑰對 ssh-keygen -t rsa -C "github郵箱地址"1、首先要檢查key是不是已經存在,2、打開一個終端,並輸入以下命令:$ ls -al ~/.ssh如果

php 7.2 編譯安裝

腳本 127.0.0.1 start mod sasl lda crypt children 路徑 yum -y install libxml2 libxml2-devel openssl openssl-devel curl-devel libjpeg-devel lib

Hadoop2.7.2文檔的學習-Yarn部分(4)Yarn Application

mat app nbsp desc pro .org 節點 option 對象 Writing YARN Applications Link:http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/

Redhat 7.2 編譯安裝PostgreSQL 10

zxvf dha 編碼 -- profile https bin 環境 方式 1.環境說明 CentOS7.2 postgresql10.4 2.下載 postgresql的官方地址 https://www.postgresql.org/ftp/source/ 在下載列表

在CentOS 7.2上使用rsyslog配置syslog server

mct tst 打開 etc thp ssi imu esc describe --=========準備======== 1.firewall狀態檢查 firewall-cmd --state 2.停止和禁用 systemctl stop firewalld.servi

Hadoop2.7.2安裝與叢集搭建

1.環境準備 jdk需要1.7以上版本64位. 建立hadoop使用者. 在hadoop使用者目錄下解壓安裝包hadoop-2.7.2.tar.gz 2.配置免密碼登入 各節點分別執行 生成公鑰和私鑰:ssh-keygen -t rsa 四次enter. 將公鑰新增進公鑰庫:cat

hadoop2.7.6偽分佈模式配置

1、本文目標是在linux單機環境下配置hadoop2.7.6的偽分佈模式。 2、在hadoop-2.7.6/etc/hadoop目錄下修改如下配置檔案內容(如果沒有配置檔案,自己建立一個即可):2.1、core-site.xml: <configuration>   &

Linux Hadoop2.7.2 Hive2.3.2 安裝

Hive 是一個數據倉庫工具,曾經ETL是資料倉庫必備工具,DB2、ORACLE、SqlServer等資料庫廠商提供各種資料倉庫工具,網際網路的到來使這些資料庫工具略顯老態。 1.Hadoop環境 伺服器 主機名 I

Hadoop2.7.2 HBase2.0.0環境搭建

叢集配置 HBase – Hadoop Database,是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化儲存叢集。 一、基礎環境 JDK    :1.8.0_65 (要求1

MySQL 5.7.19 編譯安裝與配置

進入MySQL官網下載頁面,地址https://www.mysql.com/downloads/,如果你想使用MySQL 5.7.19的原始碼版本,點此處直接下載! 進入MySQL Community Edition下載頁面 選擇作業系統為Source Code,選擇作業系統版本為Ge

windows下安裝並啟動hadoop2.7.2

64位windows安裝hadoop沒必要倒騰Cygwin,直接解壓官網下載hadoop安裝包到本地->最小化配置4個基本檔案->執行1條啟動命令->完事。一個前提是你的電腦上已經安裝了jdk,設定了java環境變數。下面把這幾步細化貼出來,以