1. 程式人生 > >Hadoop-HDFS-學習日誌-20181213

Hadoop-HDFS-學習日誌-20181213

目錄

1、三道海量資料面試題目

2、大資料

3、大資料中幾個核心概念

4、Hadoop簡單介紹

5、Hadoop安裝

6、叢集中遇到的問題

7、叢集的安裝模式

8、HDFS設計思想

9、HDFS的架構-主從架構

10、HDFS優缺點

11、HDFS的使用-shell

12、HDFS的使用-API

14、HDFS的四大機制

15、HDFS的兩大核心-上傳、下載(有一張流程圖是重點)

16、HDFS元資料合併-硬碟上的元資料合併

17、HDFS的各個角色

18、練習題目(一)


1、三道海量資料面試題目

1、一個超大檔案(一臺機器計算不了),裡面存放的都是IP地址,一行存放一個。求這個檔案中哪一個IP出現的次數最多?

2、兩個超大檔案,裡面存放的都是url,一行存放一個,求兩個檔案中相同的url?

3、一個超級大的檔案,裡面存放的都是url,一行一個,使用者給定一個url,如何快速判斷url是否在檔案中?

 

2、大資料

1、概念 

2、特點-4v

3、資料分類

4、資料來源

5、資料處理方式

6、資料價值

 

3、大資料中幾個核心概念

1、叢集

2、分散式

3、負載均衡

4、擴充套件能力

 

4、Hadoop簡單介紹

1、產生背景

2、Hadoop是什麼

3、Hadoop的組成模組

 

5、Hadoop安裝

1、

2、

3、

……

 

6、叢集中遇到的問題

1、格式化的時候配置檔案錯

2、格式化問題

3、叢集再啟動的過程中某一個程序啟動失敗,或者叢集執行一段時間後,某一個程序死了?程序缺失

4、叢集的環境變數的配置檔案問題

 

7、叢集的安裝模式

1、單擊模式

2、偽分散式

3、完全分散式

4、高可用

5、聯邦模式

 

8、HDFS設計思想

問題:HDFS負責海量資料的分散式儲存,它是如何做到的呢?

例如:資料3T,節點3個,節點配置128G記憶體 2T磁碟

1、切塊儲存

2、冗餘儲存

 

9、HDFS的架構-主從架構

1、主節點 namenode

2、從節點 datanode

3、secondarynamenode

 

10、HDFS優缺點

1、優點

2、缺點

 

11、HDFS的使用-shell

1、最關鍵的內容,比如如何檢視幫助,如何進入hdfs客戶端,等

2、最常用的點,比如上傳、下載

 

12、HDFS的使用-API

1、配置環境

2、建立專案

 

14、HDFS的四大機制

1、心跳機制

2、機架策略-副本存放策略

3、負載均衡

4、安全模式

 

15、HDFS的兩大核心-上傳、下載(有一張流程圖是重點)

1、檔案上傳/寫資料

2、檔案下載/讀資料

 

16、HDFS元資料合併-硬碟上的元資料合併

1、硬碟上儲存元資料的檔案結構:序列化檔案

2、硬碟上的完整元資料組成

3、fsimage檔案是如何產生的?

4、fsimage和edits檔案的合併工作時誰做的?

5、元資料合併過程

6、edits檔案的作用

7、記憶體中的元資料時刻都是最新、最全的元資料

 

17、HDFS的各個角色

1、namenode

2、datanode

3、secondarynamenode

4、client

 

18、練習題目(一)

1、刪除HDFS上的某個資料夾(級聯刪除)  自己寫遞迴

2、刪除某個路徑下特定型別的檔案,比如class型別檔案,比如txt型別檔案

3、刪除HDFS叢集中的所有空檔案和空目錄

4、使用流的方式上傳檔案

5、使用流的方式下載檔案

6、從隨機地方開始讀,讀任意長度

7、手動拷貝某個特定的資料塊(比如某個檔案的第二個資料塊)
        某一個檔案只下載第二個資料塊
        300M    blk1  0-127  blk2  128-255  blk3:256-300