1. 程式人生 > >hadoop、大資料面試題(11) 比較好

hadoop、大資料面試題(11) 比較好

1、hdfs原理,以及各個模組的職責

2、mr的工作原理

3、map方法是如何呼叫reduce方法的

4、shell如何判斷檔案是否存在,如果不存在該如何處理?

5、fsimage和edit的區別?

6、hadoop1和hadoop2的區別?

筆試:

1、hdfs中的block預設儲存幾份?

2、哪個程式通常與nn在一個節點啟動?並做分析

3、列舉幾個配置檔案優化?

4、寫出你對zookeeper的理解

5、datanode首次加入cluster的時候,如果log報告不相容檔案版本,那需要namenode執行格式化操作,這樣處理的原因

是?

6、談談資料傾斜,如何發生的,並給出優化方案

7、介紹一下hbase過濾器

8、mapreduce基本執行過程


9、談談hadoop1和hadoop2的區別

10、hbase叢集安裝注意事項

11、記錄包含值域F和值域G,要分別統計相同G值的記錄中不同的F值的數目,簡單編寫過程。

資訊科技有限公司

1、你們的叢集規模?

 大概400多臺機器。主要有專門的運維人員負責維護

hadoop版本 Hadoop 2.5.0-cdh5.2.0


2、你們的資料是用什麼匯入到資料庫的?匯入到什麼資料庫?

 mysql  

通過python產生 csv檔案,然後有一個nginix伺服器,把檔案拉到mysql的機器,然後通過通過mysql的命令將.csv檔案裝進資料庫

3、你們業務資料量多大?有多少行資料?(面試了三家,都問這個問題)

     我們的資料 : 每個小時的 中間表: 8.6G   一天的話有  207G   儲存 3個月, 大約有18T 的資料量

     累積使用者:58,00萬 

活躍使用者 :2,00萬

 新增使用者: 14萬

4、你們處理資料是直接讀資料庫的資料還是讀文字資料?

    讀取資料庫


5、你們寫hive的hql語句,大概有多少條?

 寫的不多

6、你們提交的job任務大概有多少個?這些job執行完大概用多少時間?(面試了三家,都問這個問題)

   這個只能看什麼了呢?  

只能讓他們看我們的程式碼了。不能說其他的了。對吧

7、hive跟hbase的區別是?

8、你在專案中主要的工作任務是?

9、你在專案中遇到了哪些難題,是怎麼解決的?

10、你自己寫過udf函式麼?寫了哪些?

11、你的專案提交到job的時候資料量有多大?(面試了三家,都問這個問題)


12、reduce後輸出的資料量有多大?