hadoop、大資料面試題（11）比較好

阿新 • • 發佈：2019-01-27

1、hdfs原理，以及各個模組的職責

2、mr的工作原理

3、map方法是如何呼叫reduce方法的

4、shell如何判斷檔案是否存在，如果不存在該如何處理？

5、fsimage和edit的區別？

6、hadoop1和hadoop2的區別？

筆試：

1、hdfs中的block預設儲存幾份？

2、哪個程式通常與nn在一個節點啟動？並做分析

3、列舉幾個配置檔案優化？

4、寫出你對zookeeper的理解

5、datanode首次加入cluster的時候，如果log報告不相容檔案版本，那需要namenode執行格式化操作，這樣處理的原因

是？

6、談談資料傾斜，如何發生的，並給出優化方案

7、介紹一下hbase過濾器

8、mapreduce基本執行過程

9、談談hadoop1和hadoop2的區別

10、hbase叢集安裝注意事項

11、記錄包含值域F和值域G，要分別統計相同G值的記錄中不同的F值的數目，簡單編寫過程。

資訊科技有限公司

1、你們的叢集規模？

大概400多臺機器。主要有專門的運維人員負責維護

hadoop版本 Hadoop 2.5.0-cdh5.2.0

2、你們的資料是用什麼匯入到資料庫的？匯入到什麼資料庫？

mysql

通過python產生 csv檔案，然後有一個nginix伺服器，把檔案拉到mysql的機器，然後通過通過mysql的命令將.csv檔案裝進資料庫

3、你們業務資料量多大？有多少行資料？(面試了三家，都問這個問題)

我們的資料 : 每個小時的中間表： 8.6G 一天的話有 207G 儲存 3個月，大約有18T 的資料量

累積使用者：58,00萬

活躍使用者：2,00萬

新增使用者： 14萬

4、你們處理資料是直接讀資料庫的資料還是讀文字資料？

讀取資料庫

5、你們寫hive的hql語句，大概有多少條？

寫的不多

6、你們提交的job任務大概有多少個？這些job執行完大概用多少時間？(面試了三家，都問這個問題)

這個只能看什麼了呢？

只能讓他們看我們的程式碼了。不能說其他的了。對吧

7、hive跟hbase的區別是？

8、你在專案中主要的工作任務是？

9、你在專案中遇到了哪些難題，是怎麼解決的？

10、你自己寫過udf函式麼？寫了哪些？

11、你的專案提交到job的時候資料量有多大？(面試了三家，都問這個問題)

12、reduce後輸出的資料量有多大？

hadoop、大資料面試題（11）比較好

hadoop、大資料面試題（11）比較好

02、75道面試題（中高階）

Java基礎面試題（11）----Servlet的理解和生命週期

web前端面試題-各大公司面試題（360）

人工智慧--神經網路各大公司面試題（2018）

大資料面試題以及答案整理（一）

大資料開發工程師====面試題（五）

大資料面試題之Hadoop叢集搭建步驟

大資料面試題總結（附答案）

大資料面試題hadoop部分及答案(16道)

Hadoop大數據面試題（全）

大資料面試題01

大資料之Spark（二）--- RDD，RDD變換，RDD的Action，解決spark的資料傾斜問題，spark整合hadoop的HA

大資料之scala（三） --- 類的檢查、轉換、繼承，檔案，特質trait，操作符，apply，update，unapply，高階函式，柯里化，控制抽象，集合

網際網路大資料面試題集錦

spring面試題（三）：註解+資料訪問

流式大資料計算實踐（2）----Hadoop叢集和Zookeeper

流式大資料計算實踐（3）----高可用的Hadoop叢集

網易杭研大資料面試題

2019最新大資料面試題及答案整理

hadoop、大資料面試題（11） 比較好

相關推薦

hadoop、大資料面試題（11）比較好