1. 程式人生 > >大資料面試題1

大資料面試題1

大資料面試過程中被問到的一些問題:

1、關係型資料庫中的儲存過程和索引?

2、Hive中的join知識點?

3、手寫程式碼 用Saprk實現PageRank的第一輪迭代(初始每個頁面票面值為1)

4、什麼是多型?

5、什麼情況下表現為多型?

6、靜態變數和非靜態變數的區別?

7、靜態方法中能呼叫非靜態方法嗎?為什麼?

8、java中final關鍵字有什麼作用?

9、error與Exception區別?

10、hive中null資料如何儲存?

11、Hive中row_number()、dense_ran、rank、ntile區別

12、什麼叫樸素貝葉斯?

13、kafka是什麼?為什麼要使用kafka?

14、什麼叫NIO(同步非阻塞)?

15、kafka中為什麼要有partition?

16、topic是什麼?

17、spark的shuffle是什麼概念?  shuffle是隨機分組的概念

18、zookeeper是做什麼用的?

19、HBase有哪些優化?

20、redis為什麼速度快

21、手寫單例模式

22、解釋下什麼叫觀察者模式,適用的場景

23、在開發中的遇到的困難和問題

24、udf和udaf寫過嗎?有什麼區別?有一個場景,用udf實現一個欄位自增怎麼弄?

25、kafka資料什麼時候落地磁碟?kafka中offset的編號規則是什麼?

26、storm的容錯機制

27、怎麼優化shffle

28、rdd怎麼轉dataFrame

29、OOM的原因?如何分析定位並解決的?

30、a、b兩個檔案 存的都是url  記憶體有限  怎麼找到a、b相同的url

31、多執行緒有幾種建立方式?

32、程式碼怎麼確定二叉樹的高度?

33、spark提交一個任務的流程

34、快排的思想?二分法的時間複雜度?

35、spark和storm的區別?

36、persist和checkpoint的區別

37、spark和mapreduce的對比

38、一個50億行的檔案,存的都是數字,記憶體有限  怎麼找到中位數

39、hashmap hashtable concurrenthashmap 區別

40、sqoop怎麼增量匯入資料

41、kafka  topic容錯機制  高水位機制

42、zookeeper原子廣播協議

43、hbase優化  rowkey設計

44、hive的優化  資料傾斜

45、內部表外部表的區別  hdfs資料匯入到hive的語法

46、cache和persist的區別 

47、為什麼使用Redis?使用Redis有哪些好處?

48、Redis 常見的效能問題都有哪些?如何解決?

49、Spark on Mesos中,什麼是的粗粒度分配,什麼是細粒度分配,各自的優點和缺點是什麼?

50、簡單說一下hadoop和spark的shuffle相同和差異?

更多面試題持續更新......