Hadoop --- 入門之HDFS的JAVA API操作

阿新 • • 發佈：2019-01-26

JAR準備：

將hadoop-2.8.0中share目錄下的jar包新增到工程中：

common下的hadoop-common-2.8.0.jar
common/lib下的所有jar
hdfs下的hadoop-hdfs-2.8.0.jar
hdfs/lib下的所有jar

示例：

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.net.URI;
import java.util.Iterator;
import java.util.Map.Entry;

import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.junit.Before;
import org.junit.Test;

//客戶端操作hdfs，是有一個使用者身份的
//預設情況下，hdfs客戶端api會從jvm中獲取一個引數來作為自己的使用者身份：-DHADOOP_USER_NAME=hadoop
public class HdfsClientDemo {

	private FileSystem fs;
	private Configuration conf;

	@Before
	public void init() throws Exception{
		
		conf = new Configuration();
		conf.set("dfs.replication", "2");

		fs = FileSystem.get(new URI("hdfs://192.168.153.136:9000"),conf,"hadoop");
	}
	
	// 獲取conf配置引數
	@Test
	public void testConf(){
		Iterator<Entry<String, String>> iterator = conf.iterator();
		while (iterator.hasNext()) {
			Entry<String, String> ent = iterator.next();
			System.out.println(ent.getKey() + ": " + ent.getValue());
		}
	}
	
	// 上傳檔案到HDFS檔案系統
	@Test
	public void testUpload() throws Exception {
		// （1）該方式是通過IO流的方式上傳檔案到HDFS檔案系統
		//FileInputStream fileInputStream =new FileInputStream("e:/Spring MVC.docx");
		//FSDataOutputStream fsDataOutputStream = fs.create(new Path("/Spring MVC222.docx"));
		//IOUtils.copy(fileInputStream, fsDataOutputStream);
		
		// （2）方式二
		boolean windowsAbsolutePath = Path.isWindowsAbsolutePath("e:/Spring MVC.docx", true);
		System.out.println(windowsAbsolutePath);
		if (windowsAbsolutePath) {
			fs.copyFromLocalFile(new Path("e:/Spring MVC.docx"), new Path("/Spring MVC.docx"));
			fs.close();
		}
	}
	
	// 從HDFS檔案系統下載檔案到本地
	@Test
	public void testDownload() throws Exception {
		//（1）該方式不依賴於本地hadoop環境，直接通過IO流
		//FSDataInputStream fsDataInputStream=fs.open(new Path("/spring/Spring MVC.docx"));
        //FileOutputStream fileOutputStream=new FileOutputStream("e:/Spring MVC.docx");
        //IOUtils.copy(fsDataInputStream, fileOutputStream);
		
        // （2）fs.copyToLocalFile(new Path("/Spring MVC1111.docx"), new Path("e:/"));該方式依賴於本地hadoop環境，可以通過如下方式：引數1表示是否刪除hdfs上的原始檔，引數4表示是否使用java原生API
		fs.copyToLocalFile(false,new Path("/Spring MVC1111.docx"), new Path("e:/"),true);
		fs.close();
	}
	
	
	
	// 建立HDFS目錄，根目錄為/
	@Test
	public void makdirTest() throws Exception {
		boolean mkdirs = fs.mkdirs(new Path("/spring"));
		System.out.println(mkdirs);
	}
	
	@Test
	public void createTest() throws Exception{
		
	}
	
	// 刪除目錄或檔案
	@Test
	public void deleteTest() throws Exception{
		// fs.exists():判斷是否存在，可能不存在
		boolean file_exists = fs.exists(new Path("/spring"));  // true
		// fs.isFile():判斷是否檔案
		boolean file = fs.isFile(new Path("/Spring MVC.docx"));  // true
		// fs.isDirectory():判斷一個物件是否是資料夾
		boolean directory1 = fs.isDirectory(new Path("/spring"));   // true
		boolean directory2 = fs.isDirectory(new Path("/Spring MVC.docx"));  // false
		
		System.out.println(file_exists);
		System.out.println(file);
		System.out.println(directory1);
		System.out.println(directory2);
		if (file_exists) {
			boolean delete = fs.delete(new Path("/spring"), true);//true， 遞迴刪除
			System.out.println(delete);
		}
	}
	
	// 遞迴獲得所有的檔案
	@Test
	public void listTest() throws Exception{
		
		FileStatus[] listStatus = fs.listStatus(new Path("/"));
		for (FileStatus fileStatus : listStatus) {
			System.err.println(fileStatus.getPath()+"================="+fileStatus.toString());
		}
		
		//會遞迴找到所有的檔案
		RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
		while(listFiles.hasNext()){
			LocatedFileStatus fileStatus = listFiles.next();
			System.out.println("blocksize：" + fileStatus.getBlockSize());
			System.out.println("owner：" + fileStatus.getOwner());
			System.out.println("Replication：" + fileStatus.getReplication());
			System.out.println("Permission：" + fileStatus.getPermission());
			System.out.println("Path：" + fileStatus.getPath());
			System.out.println("FileName：" + fileStatus.getPath().getName());
			System.out.println("File Len：" + fileStatus.getLen());
			BlockLocation[] blockLocations = fileStatus.getBlockLocations();
			for (BlockLocation blockLocation : blockLocations) {
				System.out.println("塊起始偏移量：" + blockLocation.getOffset());
				System.out.println("塊長度：" + blockLocation.getLength());
				String[] hosts = blockLocation.getHosts();
				for (String datanode : hosts) {
					// 這裡需要注意，塊副本列印的結果是3臺機器，而我們hadoop配置的只有dfs.replication為2個副本
					// 那麼為什麼會出現3個副本啦？
					// 這裡是因為client的Configuration和hadoop的hdfs-site.xml配置是獨立且分開的，當前是client則配置依賴於Configuration，此處Configuration並沒有指明dfs.replication的配置，則預設是3
					// 如果要改變該配置，則需要在檔案上傳時指明conf.set("dfs.replication", "2");
					System.out.println("塊副本位置：" + datanode);
				}
			}
		}
		
	}
	
	
	// 顯示hdfs上檔案的內容
	@Test
	public void testCat() throws Exception{
		FSDataInputStream in = fs.open(new Path("/Spring MVC.docx"));
		IOUtils.copy(in, System.out);
	}
	
}

Hadoop --- 入門之HDFS的JAVA API操作

JAR準備：將hadoop-2.8.0中share目錄下的jar包新增到工程中： common下的hadoop-common-2.8.0.jar common/lib下的所有jar hdfs下的hadoop-hdfs-2.8.0.jar hdfs/lib下的所有j

hadoop入門之使用hadoop

dfs mat format 啟動初始化格式 bin 變量 ado 首先啟動：第一個啟動初始化先hdfs格式化 bin 目錄下的 hadoop指令使用(上篇的最後已經添加到環境變量中去了,修改完一定接的source一下！！！！)

大數據hadoop入門之hadoop家族詳解

集成查詢工具人員進一步容錯基礎知識不同的 ima nbsp 大數據hadoop入門之hadoop家族詳解大數據這個詞也許幾年前你聽著還會覺得陌生，但我相信你現在聽到hadoop這個詞的時候你應該都會覺得“熟悉”！越來越發現身邊從事hadoop開發或者是正在學習

康貓100天-第二天-redis入門之list結構操作-2018-11-27

1. list結構在redis內部是使用值為空的散列表實現，多個集合鍵之間還可以進行並集、交集和差集。 2. 基本命令： 2.1 增加元素：sadd key member（已經存在集合中就會忽略這個元素，命令返回

微電子新手入門之Cadence常用操作——波形圖的匯出

模擬結束後，進入模擬波形介面，【File】-【Print...】，彈出對話方塊一種是輸出.pdf格式的，一種是輸出.ps格式的。點選右邊的【Properties】，進行相應的設定，預設即可，也可以稍微調整修改一下，點選【OK】。點選【Options>>】

微電子新手入門之Cadence常用操作——原理圖/版圖的匯出

原理圖和版圖的匯出步驟是一致的，這裡以匯出黑白原理圖為例介紹。 1）開啟相應的schematic。 2）在Virtusuo Schematic Editor中，【File

微電子新手入門之Cadence常用操作——安裝印表機

Cadence Plotter即為Cadence提供的虛擬印表機，可以把設計列印成*.ps (or *.eps)檔案，這種檔案格式為向量圖形，可以後續轉換成*.wmf 或者其他合適的格式在 Microsoft Visio 裡打散編輯。全新安裝的 Cadence 預設是沒有配置虛擬印表機的，需要配置虛

hadoop入門之海量Web日誌分析用Hadoop提取KPI統計指標

轉載自：http://blog.fens.me/hadoop-mapreduce-log-kpi/ 今天學習了這一篇部落格，寫得十分好，照著這篇部落格敲了一遍。發現幾個問題，一是這篇部落格中採用的hadoop版本過低，如果在hadoop2.x上面跑的話，可能會出現結果檔案沒有寫入任何資料，為了解決這

Hadoop --- 入門之shell命令

目錄 FS Shell 呼叫檔案系統(FS)Shell命令應使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路徑作為引數。URI格式是scheme://authority/path。對HDFS檔案系統，

Hive 之 Java API 操作

Java 想要訪問Hive，需要通過beeline的方式連線Hive，hiveserver2提供了一個新的命令列工具beeline，hiveserver2 對之前的hive做了升級，功能更加強大，它增加了許可權控制，要使用beeline需要先啟動hiverse

mxgraph入門之 mxcell的操作方法

上回說到ExtJs與mxgraph的結合，掌握這些後，我們便可以說說怎麼操作mxcell 1.首先，神馬是mxcell：根據mxgraph的js部分的API，我們得知，mxCell就是在圖中那些頂點和邊的組合，也就是流程圖中的圖示和連線之類的。這些mxcell需要畫在一個面

hadoop入門之通過java程式碼實現將本地檔案上傳到hadoop的檔案系統

package upload;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.URI

MySQL入門之C語言操作MySQL

基本概念 C APIs包含在mysqlclient庫檔案當中，與MySQL的原始碼一塊發行，用於連線到資料庫和執行資料庫查詢。 #include <stdio.h> #include <stdlib.h> #include &l

Hadoop入門之Hadoop偽分散式環境搭建

在配置Hadoop環境前，應該在Linux環境中先配置JAVA環境變數，SSH免密登入。如果沒有SSH免密登入，在分散式環境下，就會重複很多次輸入密碼的動作。 1.在Hadoop包根目錄下，編輯檔案 etc/hadoop/hadoop-env.sh，更改： export

Hadoop --- 入門之配置引數

Hadoop引數彙總 @(hadoop)[配置] linux引數以下引數最好優化一下：檔案描述符ulimit -n 使用者最大程序 nproc （hbase需要 hbse book）關閉swap分割槽設定合理的預讀取緩衝區 Linux的核心的IO排

大資料入門教程系列之Hive的Java API 操作

Java 想要訪問Hive，需要通過beeline的方式連線Hive，hiveserver2提供了一個新的命令列工具beeline，hiveserver2 對之前的hive做了升級，功能更加強大，它增加了許可權控制，要使用beeline需要先啟動hiverserver2，再使用beeline連線

Zookeeper從入門到精通系列之--1.Zookeeper的API操作

一 IDEA環境搭建 1.1 建立一個maven專案在pom.xml新增如下依賴 <dependencies> <dependency> <groupId>junit</gr

HADOOP Java API 之 HDFS2.x操作

Java api操作hdfs2.x, 主要包括以下幾個方法: 1. create dir 2.1 create file(don’t use IOUtils) 2.2 create file(use IOUtils) 3. upload local fil

Oracle入門之對表內容的dml操作

數據表的管理 back -- tex 宋體位置表達式 wsh oracle表的管理--添加數據使用insert語句向表中插入數據插入數據基本語法： insert into table[(column [,column...])] values(value [,va

hadoop入門學習系列之六hadoop學習之sqoop安裝

1.7 sqoop安裝 opc 2.6 clas jdb -m -- error 1.下載安裝包及解壓 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.配置環境變量和配置文件 cd 到 sqoop

Hadoop --- 入門之HDFS的JAVA API操作

相關推薦