HADOOP學習筆記總結一:HDFS
一、Hadoop的來源
二、hadoop的子專案
三、Hadoop的安裝與版本
Hadoop 的有三條線並行演化,各個版本的功能是不一樣的。所以2.7並不一定比0.23的要新。
比如說,0.23這個版本增加了使用者認證的功能,但其他的版本確沒有此功能。
官方地址:https://hadoop.apache.org,官方文件完整,較清晰,不過是英語,其實也是容易讀懂的
四、HDFS基本知識
可以做到故障檢測:通過心跳包來檢測datanode是否宕機,datanode報告 block,進行資料完整性檢測
也可以通過空間回收機制提高空間利用
五、可以通過shell 命令來操作
六、HDFS優點
七:HDFS缺點
八:HADF架構
HDFS的資料儲存單元BLOCK
HDFS的設計思想
九:NAMENODE與secondaryNameNode、datanode的功能
metadata儲存在記憶體中,如果HDFS小檔案太多的話,可會導致METAdata檔案過大,造成錯誤。
secondaryNameNode根據edits.log日誌檔案合併fsimage
十、HDFS的讀寫流程
寫流程中的是先把block寫到一個datanode,之後根據配置的副本機制,datanode之間自動複製。
十一、HDFS的檔案許可權
十二、安全模式:類似初始化
十三、配置檔案
core-site.xml
配置namenode
<property> <name>fs.defaultFS</name> <value>hdfs://hadoop-maste:9000/</value> </property>
配置secondnamenode在master配置檔案中
配置hdfs-site.xml
<property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop2.7/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop2.7/dfs/data</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.permissions.enabled</name> <value>false</value> </property>