大資料面試題之2018.01.05

阿新 • • 發佈：2019-01-12

5.簡述Hadoop1和Hadoop2架構異同
Hadoop2相比較於Hadoop1來說，HDFS的架構與Mapreduce的都有較大的變化，且速度上和可用性上都有了很大的提高，Hadoop2中有兩個重要的變更。
1 Hdfs的NameNodes可以以叢集方式部署，增強了Namenodes的水平擴充套件能力和可用性。
1 Mapreduce將JobTracker中的資源管理及任務生命週期管理（包括定時觸發及監控），拆分成兩個獨立的元件，並更名為YARN（Yet Another Resource Negotiator）
1.1HDFS的變化 - 增強了NameNode的水平擴充套件及可用性
6.描述一下Mapreduce的二次排序原理
在Hadoop中，預設情況下是按照key進行排序，有時需要再按照value進行排序，即，對於同一個key，reduce函式接收到的valuelist是按照value排序的，這種應用需求在join操作中很常見，比如有兩種方法進行二次排序，分別為：buffer and in memory sort和value-to-key conversion
對於buffer and in memory sort ，主要思想是：在reduce（）函式中，將某個key對應的所有value儲存下來，然後進行排序。這種方法最大的缺點是；可能會造成 out of memory。
對於value-to-key conversion，主要思想是：將key和部分value拼接成一個組合key（實現WritableComparable 介面或者呼叫setSortComparatorClass函式）這樣reduce獲取的結果便是先按key排序，後按value排序的結果。
7.請描述Mapreduce排序發生在幾個階段
（1）shuffle階段，當環形記憶體緩衝區中的資料達到它的大小的闕值時會將資料重新整理到磁碟上，在flush之前，利用快速排序，對緩衝區中的資料進行排序。
排序方式先按照partition分割槽索引號對資料排序，然後在對每個分割槽中的資料按照key進行排序，當該Map Task上的所有資料全部處理完成後，
Map Task會將所有溢寫檔案寫入到一個大檔案中，並且按照分割槽順序進行排序。
（2）reduce階段，當reduce將資料全部拉取過來後，把所有磁碟檔案進行排序合併，按照key排序，並把相同key的value放在一起
3.請描述Mapreduce中Combiner的作用是什麼，適合的場景？
Combiner是Map端執行reduce的過程，目的是為了減少Map端最終的資料量，從而減少Reduce端拉取資料的資料量，減少網路IO。Combiner適合用於一些冪等性操作，比如求和，不合適求平均值的場景。
9.請描述Mapreduce中shuffle階段的工作流程，如何優化shuffle
配置方面：（1）增大map階段的緩衝區大小
（2）map階段輸出結果使壓縮；壓縮演算法使用lzo
（3）增加reduce階段copy資料執行緒數
（4）增加副本數，從而提高計算時的資料本地化
程式方面：（1）在不影響計算結果的情況下建議使用combiner
（2）輸出結果的序列化型別儘量選擇佔用位元組少的型別
架構方面：將http改為udp，因為http還要進行3次握手操作。
10.Hadoop的sequencefile格式，什麼是Java的序列化，如何實現Java序列化
SequenceFile是Hadoop API提供的一種二進位制檔案支援，這種二進位制檔案直接將

大資料面試題之2018.01.05

大資料面試題之2018.01.05

大資料面試題之Hadoop叢集搭建步驟

大資料面試題必會2018.01.07

大資料面試題01

大資料面試題分享之spark面試題

2018年大資料面試題總結

2018最新大資料面試題下載

大資料面試題及答案 2018

網際網路大資料面試題集錦

網易杭研大資料面試題

2019最新大資料面試題及答案整理

網際網路公司大資料面試題參考指南

大資料面試題以及答案整理（一）

大資料面試題彙總版

大資料面試題—7

大資料面試題—6

2019最新大資料面試題助力大家度過筆試關

經典大資料面試題

你不知道的BAT大資料面試題

30個常見的大資料面試題 --讓你的薪資更上一層

大資料面試題之2018.01.05

相關推薦