1. 程式人生 > >Hadoop Hbase Spark 配置文件詳解

Hadoop Hbase Spark 配置文件詳解

hadoop

1.core-site.xml

1.fs.defaultFS hdfs預設埠
2.hadoop.tmp.dir
Hadoop.tmp.dir是hadoop檔案系統依賴的基礎配置,很多路徑都依賴它。它預設的位置是在/tmp/{$user}下面,但是在/tmp路徑下的儲存是不安全的,因為linux一次重啟,檔案就可能被刪除。
3.fs.trash.interval 回收間隔(區間)
fs.trash.interval定義.Trash目錄下檔案被永久刪除前保留的時間,類似於回收站。預設值是0說明垃圾回收站功能是關閉的(分鐘為單位)
​fs.trash.checkpoint.interval 垃圾回收檢查間隔

2.hdfs-site.xml

1.​dfs.namenode.name.dir
表示NameNode儲存名稱空間和操作日誌相關的元資料資訊的本地檔案系統目,決定了在本地檔案系統的DFS名稱節點 應該儲存名字表(fsimage)
2.​dfs.namenode.edits.dir 決定了在本地檔案系統的DFS名稱節點 應該儲存事務(編輯)檔案
2. dfs.datanode.data.dir 表示DataNode節點儲存HDFS檔案的本地檔案系統目錄
3.​dfs.replication 副本數目
4. dfs.webhdfs.enabled WebHDFS觀念是基於HTTP操作,在配置開源日誌系統fluentd過程中,fluentd就是利用webHDFS和HDFS進行通訊

3.yarn-site.xml

yarn.resourcemanager.address 埠8032 應用程式管理器介面的地址在RM。
yarn.resourcemanager.hostname RM的主機名
Yarn.resourcemanager.webapp.address web應用程式的http地址RM。
yarn.nodemanager.hostname NM的主機名
yarn.nodemanager.address 應用程式管理器介面的地址在NM(的地址)
yarn.nodemanager.webapp.address 埠8042
web應用程式的http地址NM。
yarn.nodemanager.aux-services
一種主要的安全認證協議NM
yarn.resourcemanager.scheduler.class 把類作為資源排程器
yarn.nodemanager.resource.memory-mb
NodeManager總的可用實體記憶體(一般要配置的)
yarn.nodemanager.vmem-pmem-ratio
每使用1MB實體記憶體,最多可用的虛擬記憶體數
yarn.nodemanager.aux-services
NodeManager上執行的附屬服務。需配置成mapreduce_shuffle,才可執行MapReduce程式

4.mapred-site.xml

mapreduce.framework.name
mapreduce.reduce.shuffle.parallelcopies
reduce啟動更多的並行拷貝器以獲取大量map的輸出(在複製(洗牌)階段時,並行傳輸的預設數量)
mapreduce.task.io.sort.mb 提高排序時的記憶體上限
mapreduce.task.io.sort.factor 檔案排序時更多的流將同時被歸併

1.問題NAMENODE:一般是臨時檔案重啟被清空了,直接格式化一下,再重新啟動節點
2.問題DATANODE:就是Namenode和Datanode的的Uuid不一致,導致不能識別,之後刪除 /dfs/name(NameNode)和 /dfs/data(DataNode)的 current檔案,這樣就可以重新生成uuid
Namenode上namespaceID與datanode上namespaceID不一致
3.多次格式化:dfs.name.dir dfs.data.dir current/VERSION檔案只是你第一次格式化時儲存的namenode的ID,因此就會造成datanode與namenode之間的id不一致

hbase

hbase.rootdir 這個目錄是region server的共享目錄,預設情況下HBase是寫到/tmp的。不改這個配置,資料會在重啟的時候丟失
hbase.master.port HBase的Master的埠.預設: 60000
hbase.cluster.distributed HBase的執行模式。false是單機模式,true是分散式模式,若為false,HBase和Zookeeper會執行在同一個JVM裡面
hbase.zookeeper.quorum Zookeeper叢集的地址列表,用逗號分割
zookeeper.znode.parent ZooKeeper中的HBase的根ZNode,預設/hbase
HBASE_MANAGES_ZK=true 使用自帶的ZK

模式

單擊模式:HBase使用本地檔案系統,而不是HDFS ,所有的服務和zooKeeper都運作在一個JVM中。zookeep監聽一個埠,這樣客戶端就可以連線HBase了。
完全分佈:偽分散式模式是把程序執行在一臺機器上,但不是一個JVM.而完全分散式模式就是把整個服務被分佈在各個節點上了

zookepeer

是獨立的,一般要獨立安裝,HBASE可以使用自帶的

spark

SPARK_MASTER_IP 主繫結到一個特定的IP地址
SPARK_WORKER_CORES 允許SPARK應用使用的核心總數(預設所有可用的核心)
SPARK_WORKER_MEMORY 允許火花使用的記憶體總數(預設1G)
SPARK_WORKER_INSTANCES 允許火花在每臺機器上跑的例項的個數(預設1)