hadoop、大資料面試題(11) 比較好
阿新 • • 發佈:2019-01-27
1、hdfs原理,以及各個模組的職責
2、mr的工作原理
3、map方法是如何呼叫reduce方法的
4、shell如何判斷檔案是否存在,如果不存在該如何處理?
5、fsimage和edit的區別?
6、hadoop1和hadoop2的區別?
筆試:
1、hdfs中的block預設儲存幾份?
2、哪個程式通常與nn在一個節點啟動?並做分析
3、列舉幾個配置檔案優化?
4、寫出你對zookeeper的理解
5、datanode首次加入cluster的時候,如果log報告不相容檔案版本,那需要namenode執行格式化操作,這樣處理的原因
是?
6、談談資料傾斜,如何發生的,並給出優化方案
7、介紹一下hbase過濾器
8、mapreduce基本執行過程
9、談談hadoop1和hadoop2的區別
10、hbase叢集安裝注意事項
11、記錄包含值域F和值域G,要分別統計相同G值的記錄中不同的F值的數目,簡單編寫過程。
資訊科技有限公司
2、你們的資料是用什麼匯入到資料庫的?匯入到什麼資料庫?
5、你們寫hive的hql語句,大概有多少條?
8、你在專案中主要的工作任務是?
9、你在專案中遇到了哪些難題,是怎麼解決的?
10、你自己寫過udf函式麼?寫了哪些?
11、你的專案提交到job的時候資料量有多大?(面試了三家,都問這個問題)
12、reduce後輸出的資料量有多大?
2、mr的工作原理
3、map方法是如何呼叫reduce方法的
4、shell如何判斷檔案是否存在,如果不存在該如何處理?
5、fsimage和edit的區別?
6、hadoop1和hadoop2的區別?
筆試:
1、hdfs中的block預設儲存幾份?
2、哪個程式通常與nn在一個節點啟動?並做分析
3、列舉幾個配置檔案優化?
4、寫出你對zookeeper的理解
5、datanode首次加入cluster的時候,如果log報告不相容檔案版本,那需要namenode執行格式化操作,這樣處理的原因
是?
6、談談資料傾斜,如何發生的,並給出優化方案
7、介紹一下hbase過濾器
8、mapreduce基本執行過程
9、談談hadoop1和hadoop2的區別
10、hbase叢集安裝注意事項
11、記錄包含值域F和值域G,要分別統計相同G值的記錄中不同的F值的數目,簡單編寫過程。
資訊科技有限公司
1、你們的叢集規模?
大概400多臺機器。主要有專門的運維人員負責維護
hadoop版本 Hadoop 2.5.0-cdh5.2.0
2、你們的資料是用什麼匯入到資料庫的?匯入到什麼資料庫?
mysql
通過python產生 csv檔案,然後有一個nginix伺服器,把檔案拉到mysql的機器,然後通過通過mysql的命令將.csv檔案裝進資料庫
3、你們業務資料量多大?有多少行資料?(面試了三家,都問這個問題)
我們的資料 : 每個小時的 中間表: 8.6G 一天的話有 207G 儲存 3個月, 大約有18T 的資料量
累積使用者:58,00萬
活躍使用者 :2,00萬
新增使用者: 14萬
4、你們處理資料是直接讀資料庫的資料還是讀文字資料?
讀取資料庫
5、你們寫hive的hql語句,大概有多少條?
寫的不多
6、你們提交的job任務大概有多少個?這些job執行完大概用多少時間?(面試了三家,都問這個問題)這個只能看什麼了呢?
只能讓他們看我們的程式碼了。不能說其他的了。對吧
7、hive跟hbase的區別是?8、你在專案中主要的工作任務是?
9、你在專案中遇到了哪些難題,是怎麼解決的?
10、你自己寫過udf函式麼?寫了哪些?
11、你的專案提交到job的時候資料量有多大?(面試了三家,都問這個問題)
12、reduce後輸出的資料量有多大?