1. 程式人生 > >ETL架構師面試題(中文)

ETL架構師面試題(中文)

本部分的題目來自Kimball的ETL Toolkit著作,原著未直接給出答案。這裡的中文題目和答案是我參考其原著按自己的理解整理而來的,僅供參考。對於其中不確切的地方,歡迎大家一起溝通。有興趣的朋友可以直接閱讀原著。

  分析

  1.什麼是邏輯資料對映?它對ETL專案組的作用是什麼?

  2.在資料倉庫專案中,資料探索階段的主要目的是什麼?

  3.如何確定起始來源資料?

  架構

  4.在ETL過程中四個基本的過程分別是什麼?

  5.在資料準備區中允許使用的資料結構有哪些?各有什麼優缺點?

  6.簡述ETL過程中哪個步驟應該出於安全的考慮將資料寫到磁碟上?

  抽取

  7.簡述異構資料來源中的資料抽取技術。

  8.從ERP源系統中抽取資料最好的方法是什麼?

  9.簡述直接連線資料庫和使用ODBC連線資料庫進行通訊的優缺點。

  10.簡述出三種變化資料捕獲技術及其優缺點。

  資料質量

  11.資料質量檢查的四大類是什麼?為每類提供一種實現技術。

  12.簡述應該在ETL的哪個步驟來實現概況分析?

  13.ETL專案中的資料質量部分核心的交付物有那些?

  14.如何來量化資料倉庫中的資料質量?

  建立對映

  15.什麼是代理鍵?簡述代理鍵替換管道如何工作。

  16.為什麼在ETL的過程中需要對日期進行特殊處理?

  17.簡述對一致性維度的三種基本的交付步驟。

  18.簡述三種基本事實表,並說明ETL的過程中如何處理它們。

  19.簡述橋接表是如何將維度表和事實表進行關聯的?

  20.遲到的資料對事實表和維度表有什麼影響?怎樣來處理這個問題?

  元資料

  21.舉例說明各種ETL過程中的元資料。

  22.簡述獲取操作型元資料的方法。

  23.簡述共享業務元資料和技術元資料的方法。

  優化/操作

  24.簡述資料倉庫中的表的基本型別,以及為了保證引用完整性該以什麼樣的順序對它們進行載入。

  25.簡述ETL技術支援工作的四個級別的特點。

  26.如果ETL程序執行較慢,需要分哪幾步去找到ETL系統的瓶頸問題。

  27.簡述如何評估大型ETL資料載入時間。

  實時ETL

  28.簡述在架構實時ETL時的可以選擇的架構部件。

  29.簡述幾種不同的實時ETL實現方法以及它們的適用範圍。 

 30.簡述實時ETL的一些難點及其實現方法。