1. 程式人生 > >hadoop - 基礎操作

hadoop - 基礎操作

訪問 基礎 保存本地 文件結構 方式 語法 就會 目錄 tracker

查看文件;
[root@hadoop hadoop]# hadoop fs -lsr /
drwxr-xr-x - root supergroup 0 2016-12-27 10:49 /home
drwxr-xr-x - root supergroup 0 2016-12-27 10:49 /home/hadoop
drwxr-xr-x - root supergroup 0 2016-12-27 10:49 /home/hadoop/tmp
drwxr-xr-x - root supergroup 0 2016-12-27 10:49 /home/hadoop/tmp/mapred
drwx------ - root supergroup 0 2016-12-27 10:49 /home/hadoop/tmp/mapred/system
-rw------- 1 root supergroup 4 2016-12-27 10:49 /home/hadoop/tmp/mapred/system/jobtracker.info
[root@hadoop hadoop]# hadoop fs -ls /
Found 1 items
drwxr-xr-x - root supergroup 0 2016-12-27 10:49 /home
[root@hadoop hadoop]#


HDFS
HDFS 的web 接口訪問
http://hadoop:50070
可以查看 namenode 狀態;
http://hadoop:50075
可以查看 datanode 狀態;

活動方式 體系結構
分布式文件管理系統 HDFS 一次寫入 多次查詢 不支持並發寫/ 小文件不合適
容錯 節點脫機 仍可以運作 (因為是多臺節點 、分布式系統不會宕 數據不確定)
多機器多用戶分享文件 和存儲空間;
通透性 通過網絡訪問文件動作 由程序和用戶訪問;

hdsf 操作語法:操作方式 hadoop fs xxx
hadoop fs -ls hdfs://hadoop:9000/
### *** 查找目錄
查詢目錄結構 :hadop fs -ls / 根目錄
[root@hadoop ~]# hadoop fs -lsr /
Warning: $HADOOP_HOME is deprecated.
類別權限 副本 用戶 組 大小
drwxr-xr-x - root supergroup 0 2016-12-12 14:04 /home
drwxr-xr-x - root supergroup 0 2016-12-12 14:04 /home/hadoop
drwxr-xr-x - root supergroup 0 2016-12-12 14:04 /home/hadoop/tmp
drwxr-xr-x - root supergroup 0 2016-12-12 14:39 /home/hadoop/tmp/mapred
drwx------ - root supergroup 0 2016-12-12 14:39 /home/hadoop/tmp/mapred/system
-rw------- 1 root supergroup 4 2016-12-12 14:39 /home/hadoop/tmp/mapred/system/jobtracker.info
[root@hadoop ~]#
-- ( 上面文件的 "1" 表示副本;而文件夾沒有 、文件只是組織管理 。 )

創建文件 hadoop fs mkdir /

HDFS 主要是用於 上傳數據 部署FTP 服務器上傳文件;一次寫多次讀
(默認 不能重復;上傳時目錄不存在時 如果上傳文件的目的目錄不存在時則上傳文件默認為目錄名)

hadoop fs -text <hdfs > 查看文件內容
配置文件
hadoop 環境變量腳本
hadoop-env.sh

hadoop 核心配置文件
core-site.xml 配置hadoop 的運行臨時文件的主目錄 和 HDFS 的訪問路徑
fs.default.name

hdfs 核心配置文件 可以配置副本集數
hdfs-site.xml 存儲的副本數


MapReduce 的配置文件
mapred-site.xml Jobtracker 的訪問路徑;

(源數據在運行時 是放在內存中)
*/tmp/dfs/name/in_use.lock 表示這個目錄已經被 namenode 使用;
*/tmp/dfs/name/current namenode 寫入文件;
HA 解決方案 冷備份;不支持熱備
從 namenode 上下載元數據信息(fsimage、edits) 然後把二者合並生成新的fsimage;保存本地 並將其推送到namenode上;重置namenode和edits

Datanode 提供真實數據的存儲服務
文件塊 block 最基礎的存儲單位
HDFS 默認block大小是64M ,以一個256M文件 共有256/64=4個block
# stat / 和windows 系統文件 簇的一樣是存儲單位;(但當不到一個block大小,就會占用文件實際大小 )
.meta 校驗文件;
-rw-r--r-- 1 root root 4 Dec 12 16:10 blk_1423469742724759577
-rw-r--r-- 1 root root 11 Dec 12 16:10 blk_1423469742724759577_1025.meta

hdfs 根目錄: hadoop fs -ls/
文件block塊的 位置設置文件主目錄;
我默認設置的 /home/hadoop/tmp/dfs/data/current
" SQL 文件結構化數據 "


默認是3個副本 ;副本越多越好 但是 占用磁盤控件 ;


使用Java 操作hadoop 操作的是 fileSystem

單一節點namenode 備份block 文件  也會有一部分數據丟失 ;有一個是高可用行 HA



3、RPC (remote procedure call)
不同Java進程間的對象方法的調用 (不同Java進程間的對象調用;)
一方稱作服務端 server 一方稱作客戶端 client (CS 模式)
server 端提供對象 供客戶端調用 、被調用的對象的方法的執行發生在server 端;
RPC 是hadoop 框架運行的基礎。運行在框架之上的 ;

hadoop - 基礎操作