1. 程式人生 > >大數據學習資料,大數據面試題分享

大數據學習資料,大數據面試題分享

性能調優 客戶 內存 貝葉斯 運行原理 項目 常見 reg oop

大數據學習資料,大數據面試題分享:

1、 針對每場面試來說必問的一個問題:自我介紹。

2、講述HDFS上傳文件和讀文件的流程

3、HDFS在上傳文件的時候,如果其中一個塊突然損壞了怎麽辦

4、NameNode的作用

5、NameNode在啟動的時候會做哪些操作

6、NameNode的HA

7、Innodb事務怎麽實現的

8、項目介紹

9、Hadoop的作業提交流程

10、Hadoop怎麽分片

11、如何減少Hadoop Map端到Reduce端的數據傳輸量

12、Hadoop的Shuffle

13、HMaster的作用

14、flum 是如何導入數據到 kafka?具體

15、hadoop 與 storm、spark 的比較?

一、spark相關

1.Spark的Shuffle原理及調優?

2.hadoop和spark使用場景?

3.spark如何保證宕機迅速恢復?

4.hadoop和spark的相同點和不同點?

5.RDD持久化原理?

6.checkpoint檢查點機制?

7.checkpoint和持久化機制的區別?

8.Spark Streaming和Storm有何區別?

9.RDD機制?

10.Spark streaming以及基本工作原理?

11.DStream以及基本工作原理?

12.spark有哪些組件?

13.spark工作機制?

14.Spark工作的一個流程?

15.spark核心編程原理?

16.spark基本工作原理?

17.spark性能優化有哪些?

18.updateStateByKey詳解?

19.寬依賴和窄依賴?

20.spark streaming中有狀態轉化操作?

21.spark常用的計算框架?

22.spark整體架構?

23.Spark的特點是什麽?

24.搭建spark集群步驟?

25.Spark的三種提交模式是什麽?

26..spark內核架構原理?

27.Spark yarn-cluster架構?

28.Spark yarn-client架構?

29.SparkContext初始化原理?

30.Spark主備切換機制原理剖析?

31.spark支持故障恢復的方式?

32.spark解決了hadoop的哪些問題?

33.數據傾斜的產生和解決辦法?

34.spark 實現高可用性:High Availability?

35.spark實際工作中,是怎麽來根據任務量,判定需要多少資源的?

36.spark中怎麽解決內存泄漏問題?

二、hadoop

1.講述HDFS上傳文件和讀文件的流程?

2.HDFS在上傳文件的時候,如果其中一個塊突然損壞了怎麽辦?

3.NameNode的作用?

4.NameNode在啟動的時候會做哪些操作?

5.NameNode的HA?

6.Hadoop的作業提交流程?

7.Hadoop怎麽分片?

8.如何減少Hadoop Map端到Reduce端的數據傳輸量?

9.Hadoop的Shuffle?

10.哪些場景才能使用Combiner呢?

11.HMaster的作用?

12.如何實現hadoop的安全機制?

13.hadoop的調度策略的實現,你們使用的是那種策略,為什麽?

14.數據傾斜怎麽處理?

15.評述hadoop運行原理?

16.簡答說一下hadoop的map-reduce編程模型?

17.hadoop的TextInputFormat作用是什麽,如何自定義實現?

18.map-reduce程序運行的時候會有什麽比較常見的問題?

19.Hadoop平臺集群配置、環境變量設置?

20.Hadoop性能調優?

21.Hadoop高並發?

三、HBase

1.HBase的操作數據的步驟?

2.HDFS和HBase各自使用場景?

3.熱點現象及解決辦法?

4.RowKey的設計原則?

5.hbase.hregion.max.filesize應該設置多少合適?

6.autoflush=false的影響?

8.Hbase行健列族的概念,物理模型,表的設計原則?

9.HBase存儲單元Cell?

10.HBase物理模型?

11.HBase的客戶端Client?

12.HBase二級索引?

四、Hive

  1. hadoop中兩個大表實現join的操作,簡單描述?

2.Hive中存放是什麽?

3.Hive與關系型數據庫的關系?

4.講一下數據庫,SQl ,左外連接, 原理,實現?

5.大表和小表join?

  1. 數據清洗怎麽做的?怎麽用spark做數據清洗?

  2. Hadoop中二次排序怎麽做?

  3. hadoop常見的join操作?

  4. hive優化有哪些?

  5. 分析函數?

五、Java

1.講講多線程吧,要是你,你怎麽實現一個線程池呢?

2.項目用什麽語言寫? Scala? Scala的特點? 和Java的區別?

3.平時對多線程這方面是怎麽處理呢?

4.什麽是jvm?

5.jvm怎麽調優的?

6.jvm結構?堆裏面幾個區?

7.jdbc?mysql的驅動包名字叫什麽?

8.java自帶有哪幾種線程池?

  1. GC機制?

  2. 使用泛型的好處?

11.HashMap?

12.Java多線程的狀態?

六、機器學習算法

1.簡要描述你知道的數據挖掘算法和使用場景?

2.mllib支持的算法?

3.ALS算法原理?

4.kmeans算法原理?

5.canopy算法原理?

6.樸素貝葉斯分類算法原理?

7.關聯規則挖掘算法apriori原理?

想要順利進入BAT企業,技術才是硬道理,技術是根本,其次還要註意一定的面試應對技巧和一定的團隊意識。文末,小編也預祝每一位大數據程序員都能如自己所願,進入BAT企業!

大數據學習資料,大數據面試題分享