1. 程式人生 > >大資料面試題之2018.01.05

大資料面試題之2018.01.05

5.簡述Hadoop1和Hadoop2架構異同
Hadoop2相比較於Hadoop1來說,HDFS的架構與Mapreduce的都有較大的變化,且速度上和可用性上都有了很大的提高,Hadoop2中有兩個重要的變更。
1 Hdfs的NameNodes可以以叢集方式部署,增強了Namenodes的水平擴充套件能力和可用性。
1 Mapreduce將JobTracker中的資源管理及任務生命週期管理(包括定時觸發及監控),拆分成兩個獨立的元件,並更名為YARN(Yet Another Resource Negotiator)
1.1HDFS的變化 - 增強了NameNode的水平擴充套件及可用性
6.描述一下Mapreduce的二次排序原理
在Hadoop中,預設情況下是按照key進行排序,有時需要再按照value進行排序,即,對於同一個key,reduce函式接收到的valuelist是按照value排序的,這種應用需求在join操作中很常見,比如有兩種方法進行二次排序,分別為:buffer and in memory sort和value-to-key conversion
對於buffer and in memory sort ,主要思想是:在reduce()函式中,將某個key對應的所有value儲存下來,然後進行排序。這種方法最大的缺點是;可能會造成 out of memory。
對於value-to-key conversion,主要思想是:將key和 部分value拼接成一個組合key(實現WritableComparable 介面或者呼叫setSortComparatorClass函式)這樣reduce獲取的結果便是先按key排序,後按value排序的結果。
7.請描述Mapreduce排序發生在幾個階段
(1)shuffle階段,當環形記憶體緩衝區中的資料達到它的大小的闕值時會將資料重新整理到磁碟上,在flush之前,利用快速排序,對緩衝區中的資料進行排序。
排序方式先按照partition分割槽索引號對資料排序,然後在對每個分割槽中的資料按照key進行排序,當該Map Task上的所有資料全部處理完成後,
Map Task會將所有溢寫檔案寫入到一個大檔案中,並且按照分割槽順序進行排序。
(2)reduce階段,當reduce將資料全部拉取過來後,把所有磁碟檔案進行排序合併,按照key排序,並把相同key的value放在一起
3.請描述Mapreduce中Combiner的作用是什麼,適合的場景?
Combiner是Map端執行reduce的過程,目的是為了減少Map端最終的資料量,從而減少Reduce端拉取資料的資料量,減少網路IO。Combiner適合用於一些冪等性操作,比如求和,不合適求平均值的場景。
9.請描述Mapreduce中shuffle階段的工作流程,如何優化shuffle
配置方面:(1)增大map階段的緩衝區大小
(2)map階段輸出結果使壓縮;壓縮演算法使用lzo
(3)增加reduce階段copy資料執行緒數
(4)增加副本數,從而提高計算時的資料本地化
程式方面:(1)在不影響計算結果的情況下建議使用combiner
(2)輸出結果的序列化型別儘量選擇佔用位元組少的型別
架構方面:將http改為udp,因為http還要進行3次握手操作。
10.Hadoop的sequencefile格式,什麼是Java的序列化,如何實現Java序列化
SequenceFile是Hadoop API提供的一種二進位制檔案支援,這種二進位制檔案直接將

相關推薦

資料試題2018.01.05

5.簡述Hadoop1和Hadoop2架構異同 Hadoop2相比較於Hadoop1來說,HDFS的架構與Mapreduce的都有較大的變化,且速度上和可用性上都有了很大的提高,Hadoop2中有兩個重要的變更。 1 Hdfs的NameNodes可以以叢集方

資料試題Hadoop叢集搭建步驟

一、開啟需要搭建Hadoop叢集的主從節點伺服器 ,配置好靜態IP、主機名hostname、主機IP對映檔案hosts、關掉防火牆二、通過遠端登入工具(我用的是SecureSRT) 登入到Linux系統,登入前需要在Windows系統中C:\Windows\System32\

資料試題必會2018.01.07

資料分析師常見的10道面試題解答 1.海量日誌資料,提取出某日訪問百度次數最多的那個IP。 首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大檔案中,注意到IP是32位的,最多有個2*32個IP。同樣可以採用對映的方法,比如模1000,把整個大檔案對映為100

資料試題01

Spark Application 使用者自己寫的程式,批處理作業的集合,Application的main方法時程式的入口,定義了RDD以及對RDD的操作 SparkContext spark的重要api,使用者邏輯與spark的互動介面。會和Cluster manager

資料試題分享spark試題

一  什麼是spark Spark是大資料的排程,監控和分配引擎。它是一個快速通用的叢集計算平臺.Spark擴充套件了流行的MapReduce模型.Spark提供的主要功能之一就是能夠在記憶體中執行計算 ,但對於在磁碟上執行的複雜應用程式,系統也比MapReduce更有效。

2018資料試題總結

目前面試了多家大資料開發工程師,成長了很多,也知道了很多知識,下面和大家分享一下我遇到的面試題和答案。 1.kafka叢集的規模,消費速度是多少。 答:一般中小型公司是10個節點,每秒20M左右。 2.hdfs上傳檔案的流程。 答:這裡描述的 是一個256M的檔

2018最新資料試題下載

  人生的每一個階段,都有自己應該做的事情,我們在大資料時代,該學習大資料技術就應該好好學習大資料技術,將自己的技術學到精深,學到大資料技術的精華。該面試找工作的時候,也要做好一切準備,無論是禮儀的學習、說話的技巧還是大資料的面試題也是要面面俱到的。恰巧小編整理了一份大資料面

資料試題及答案 2018

1.   java記憶體模型2.gc3.編譯好的scala程式,執行時還需要scala環境嗎Scala的程式碼執行是用REPL過程,ReadExecute Print Loop4.object中有哪些方法5.監測叢集中的cpu,記憶體使用情況?6、ArrayList中的Arr

網際網路資料試題集錦

原文地址:http://hbase.group/article/89 以下面試題都是群裡小夥伴提供的,現場真題(包含校招題)1.網易大資料面試題 說說專案 Spark哪部分用得好,如何調優 Java哪部分了解比較好 聊聊併發,併發實現方法,volatile關鍵字說說

網易杭研資料試題

一面: hdfs讀寫過程 MR原理 講專案 balabala... 差不多40幾分鐘吧 二面: 講專案,專案一個點一個點的問。 主要講的是PV、UV的統計、其中設計到rowkey衝突怎麼處理。 接著講專案balabala 差不多40多分鐘吧 HR面(一個男

2019最新資料試題及答案整理

大資料面試題總結一波,助力準備在金三銀四尋找好工作的小夥伴們,只有度過筆試這一關才能在下面的關卡中大展巨集圖! 一、如何檢查namenode是否正常執行?重啟namenode的命令是什麼? 通過節點資訊和瀏覽器檢視,通過指令碼監控 hadoop-daemon.sh start namenod

網際網路公司資料試題參考指南

以下面試題都是群裡小夥伴提供的,現場真題(包含校招題) 1.網易大資料面試題 說說專案 Spark哪部分用得好,如何調優 Java哪部分了解比較好 聊聊併發,併發實現方法,volatile關鍵字說說 HashMap的底層原理 為什麼要重寫hashcode和equ

資料試題以及答案整理(一)

kafka的message包括哪些資訊 一個Kafka的Message由一個固定長度的header和一個變長的訊息體body組成 header部分由一個位元組的magic(檔案格式)和四個位元組的CRC32(用於判斷body訊息體是否正常)構成。當magic的值為

資料試題彙總版

作者 大資料面試題及答案 彙總版 當前版本: Ver 1.0 製作單位: 編寫人員: 審 核 人: 籤 收 人: 簽署日期:     201

資料試題—7

9. 面試問題: 1.從前到後從你教育背景(學過哪些課)到各個專案你負責的模組,問的很細(本以為他是物理學博士,但是所有的技術都懂) 2.hadoop 的 namenode 宕機,怎麼解決 先分析宕機後的損失,宕機後直接導致client無法訪問,記憶體中的元資料丟失,但是硬碟中的元資料應該還存在

資料試題—6

3.14 1、一個Hadoop環境,整合了HBase和Hive,是否有必要給HDFS和Hbase都分別配置壓縮策略?請給出對壓縮策略的建議。 hdfs在儲存的時候不會將資料進行壓縮,如果想進行壓縮,我們可以在向hdfs上傳資料的時候進行壓縮。 1)、  採用壓縮流 2)、 &nb

2019最新資料試題 助力大家度過筆試關

  大資料面試題總結一波,助力準備在金三銀四尋找好工作的小夥伴們,只有度過筆試這一關才能在下面的關卡中大展巨集圖!     一、如何檢查namenode是否正常執行?重啟namenode的命令是什麼?   通過節點資訊和瀏覽器檢視,通過指令碼監控   hadoop-d

經典資料試題

什麼是大資料? 大資料(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資產。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中大資料指不用隨機分析法(抽樣調查)

你不知道的BAT資料試題

                         你不知道的BAT大資料面試題   1、kafka的message包括哪些資訊 一個Kafka的

30個常見的資料試題 --讓你的薪資更上一層

30個常見的大資料面試題: 包含spark、scala、storm、hadoop等常見的大資料處理工具; 常用的分散式資料庫如hbase、MongoDB、Redis等; 其他常用的java基礎、linux相關技術等 1.scala 語言有什麼特點,什