1. 程式人生 > >大資料研發面試題總結

大資料研發面試題總結

面試方向:大資料研發

Java部分

  • Java的集合類有哪些?
  • ArrayList和LinkedList的區別
  • ArrayList的動態擴容是怎麼實現的
  • HashMap的底層儲存結構是什麼樣的
  • Java多執行緒的實現方法
  • 執行緒和程序的區別是什麼
  • 執行緒的生命週期和生命狀態
  • volatile關鍵字
  • wait和sleep的區別
  • 如何保證執行緒安全的問題,執行緒安全是什麼
  • JVM的結構,每塊是什麼用處
  • 講一講Java的垃圾回收機制

    網路篇

  • 計算機網路的7層模型

  • 講一下HTTP協議

    大資料

  • Kafka的元件都有什麼,分別用來做什麼的

  • Kafka怎麼管理offset
  • Spark1.6和2.0的區別

    資料庫

  • 經歷過哪些SQL的調優

  • 資料庫的底層儲存結構是什麼

有沒有想要交流的朋友我們一起來總結呀,具體可以私信哦,題目比較基礎,不過對於將要參加校招的同學們來說還是值得學習的

相關推薦

資料研發試題總結

面試方向:大資料研發 Java部分 Java的集合類有哪些? ArrayList和LinkedList的區別 ArrayList的動態擴容是怎麼實現的 HashMap的底層儲存結構是什麼樣的

海量資料處理:十道試題與十個海量資料處理方法總結資料演算法試題

第一部分、十道海量資料處理面試題 1、海量日誌資料,提取出某日訪問百度次數最多的那個IP。       首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大檔案中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用對映的方法

資料結構試題總結1——陣列:求最、次

一般大家一開始想到的辦法就是一次迴圈,記錄下最大值和最小值。或者就是用兩次冒泡,找到最大值和次大值。 這兩種方法實踐複雜度差不多都是O(2n),如果陣列很長,效率還是不夠高的。 注意:直接排序,再選擇最大的兩個值,這並不是一個好辦法,因為我們只需要前兩個數有序,不需要後N-

分享:15道資料崗位試題

你認為哪個更好:是好的資料還是好模型?同時你是如何定義“好”?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麼好?1、你處理過的最大的資料量?你是如何處理他們的?處理的結果。2、告訴我二個分析或者電腦科學相關專案?你是如何對其結果進行衡量的?3、什麼是:提升值、關鍵績效指標、強壯性、模型按合度

直接影響你薪資的一套資料企業試題,看完記得收藏轉發哦!

經歷了水深火熱的大資料學習,終於撥開雲霧見天明瞭,但你離成功總是還差了一步,那就是拿到大資料工程師的Offer。 在電腦旁奮鬥了無數個日夜,程式碼敲了無數遍,專案整改了無數遍,只為了得到一份自己滿意的高薪資高待遇的Offer。但這個收穫不僅僅需要你學到嫻熟的大資料技術,還需要在面試之前精心準備,瞭解自己要應

資料筆試試題

    原文出處:https://blog.csdn.net/qq_41127332/article/details/83653836 寫下這篇文章既是對我近兩個月斷斷續續校招的總結與思考,又希望能給正在找或未來找工作的學弟學

資料工程師試題--7

轉載自:https://blog.csdn.net/u011682879/article/details/55803847 9. 面試問題: 1.從前到後從你教育背景(學過哪些課)到各個專案你負責的模組,問的很細(本以為他是物理學博士,但是所有的技術都懂) 2.hadoop 的

資料實時試題--未完整版

flume-->kafka-->spark-->hdfs-->sqoop 1、flume與kafka如何整合? agent:   source:exec , spooldir,  avro              channel :memory

資料基礎試題整理

1.分散式的三種模式   2.Hadoop叢集的執行模式 Hadoop的執行模式分為3種: 本地執行模式(獨立模式,單機模式), 偽分佈執行模式, 叢集執行模式(完全分散式模式) 偽分佈模式就是在一臺伺服器上面模擬叢集環境,但僅僅是機器數量少,其通訊機制

資料相關試題整理(簡單)

1、hadoop:   1)hadoop是大資料分析的完整生態系統,從資料採集,儲存,分析,轉運,再到頁面展示,構成了整個流程     2)採集可以用flume,   3)儲存用hbase,hdfs,mangodb就相當於hbase,   4)分析用

資料工程師試題—5

2)HashMap和HashTable,ArrayList和Vector,ArrayList和LinkedList的區別 1 HashMap不是執行緒安全的 hashmap是一個介面 是map介面的子介面,是將鍵對映到值的物件,其中鍵和值都是物件,並且不能包含重複鍵,但可以包含重複值。 Hash

資料工程師試題—4

2.23. 我們開發job時,是否可以去掉reduce階段。 可以。設定reduce數為0 即可。2.24. datanode在什麼情況下不會備份 datanode在強制關閉或者非正常斷電不會備份。2.25. combiner出現在那個過程 出現在map階段的map方法後等。2.26. hdfs的體

資料工程師試題—3

2.13. 簡述hadoop的排程器 FIFO schedular:預設,先進先出的原則 Capacity schedular:計算能力排程器,選擇佔用最小、優先順序高的先執行,依此類推 Fair schedular:公平排程,所有的job具有相同的資源。2.14. 列出你開發mapreduce的語

資料工程師試題—2

2.7.  用mapreduce來實現下面需求? 現在有10個資料夾,每個資料夾都有1000000個url.現在讓你找出top1000000url。 方法一: 運用2個job,第一個job直接用filesystem讀取10個資料夾作為map輸入,url做key,reduce計算url的su

資料工程師試題—1

1.   選擇題1.1.  下面哪個程式負責 HDFS 資料儲存。 c)Datanode  答案 C datanode1.2.  HDfS 中的 block 預設儲存幾份? a)3 份  答案 A 預設 3 份1.3.  下列哪個程式通常與

資料相關試題整理-帶答案

1、fsimage和edit的區別?   大家都知道namenode與secondary namenode 的關係,當他們要進行資料同步時叫做checkpoint時就用到了fsimage與edit,fsimage是儲存最新的元資料的資訊,當fsimage資料到一定的大小事會去生成一個新的檔

資料工程師試題(三)

2.13. 簡述hadoop的排程器 FIFO schedular:預設,先進先出的原則 Capacity schedular:計算能力排程器,選擇佔用最小、優先順序高的先執行,依此類推 Fair schedular:公平排程,所有的job具有相同的資源。 2.14. 列出

資料開發試題詳解:Hadoop的執行原理

hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是從Map結束到Reduce開始之間的過程。 Hadoop不僅僅是大資料技術的核心重點,還是我們面試官面試的時候經常會問道的問題,本文將詳細介紹Hadoop的執行原理。 hadoop執

滴滴出行資料實習生試題

二叉樹的遍歷,前序的遞迴演算法: //輸出 void Visit(BinaryTree T){ if(T->data != '#'){ cout<<T->data; } } /

資料常見面試題總結

Hadoop部分 1.Hadoop安裝步驟? 1使用root賬戶登入 2 修改IP 3 修改host主機名 4 配置SSH免密碼登入 5 關閉防火牆 6 安裝JDK 6 解壓hadoop安裝包 7 配置hadoop的核心檔案 hadoop-env.sh,co