1. 程式人生 > >大資料面試題及答案 2018

大資料面試題及答案 2018

1.   java記憶體模型

2.gc

3.編譯好的scala程式,執行時還需要scala環境嗎

Scala的程式碼執行是用REPL過程,ReadExecute Print Loop

4.object中有哪些方法

5.監測叢集中的cpu,記憶體使用情況?

6、ArrayList中的Array長度超了是怎麼增加的,一次增加多少?


---------------------------------------------------

linux的啟動順序

通電後讀取ROM的BIOS程式進行硬體自檢,自檢成功後把計算機控制權交給BIOS中BOOTsequence中的下一個有效裝置,讀取該裝置MBR找到作業系統,載入linux的bootloader,一般是grub。之後載入kernel,執行 /etc/rc.d/sysinit ,開啟其他元件(/etc/modules.conf),執行執行級別,執行/etc/rc.d/rc.local ,執行/bin/login,最後shell啟動。

使用過的開源框架介紹

Struts2 

Spring 

hibernate 

mybatis

hadoop

hive

hbase

flume

sqoop

Zookeeper

Mahout

Kafka

Storm

Spark

擅長哪種技術

Hadoop。介紹

HIVE的優化

底層是MapReduce,所以又可以說是MapReduce優化。

1.      小檔案都合併成大檔案

2.      Reducer數量在程式碼中介於節點數*reduceTask的最大數量的0.95倍到1.75倍

3.      寫一個UDF函式,在建表的時候制定好分割槽

4.      配置檔案中,開啟在map端的合併

開發中遇到的問題

Hbase節點執行很慢,發現是Hfile過小,hbase頻繁split。

修改了hfile大小。或者設定major compack設定為手動

Major compack設定為手動會出現什麼問題

Zookeeper的二次開發

Flume 的實時和定時資料採集,專案和flume的解耦

Mogodb和hbase的區別

Mogodb是單機

Hbase是分散式??

專案組多少人?人員分配?資料量?叢集的配置?