微軟Arindam Chatterjee訪談:Azure HDInsight 4.0
Azure HDInsight 4.0以Apache Hadoop 3.1為基礎,其公開預覽版最近在Azure上釋出。其主要更新包括:
- Apache Hive 3.0 LLAP(在HDInsight中稱為互動式查詢的低延遲分析處理),改進了快速查詢和事務。
- 具有可更新表的Apache Spark和使用Hive Warehouse聯結器的ACID事務。
Azure HDInsight是一個基於Apache Hadoop、Spark和Kafka的服務提供服務,用於大資料處理和分析。它以Apache Hadoop 3.1和 ofollow,noindex" target="_blank">hortonworks資料平臺(HDP)3.0 為基礎,幾乎所有的元件都進行了更新。
InfoQ聯絡了微軟首席主群經理 Arindam Chatterjee ,瞭解 微軟Ignite 大會上釋出的關於HDInsight的訊息。
他介紹了託管服務相對於傳統的基礎設施即服務的優勢、可以建立的不同型別的叢集(Apache Hadoop、Spark、Kafka、Storm等)以及如何根據實際需求定製。他討論了基於活動目錄整合的企業安全特性、資料遷移到叢集的最新版本以及能夠建立支援Jupyter和Zepplin筆記本的Spark叢集。最後,他談到了如何將社群工作整合到產品路線圖中。
InfoQ:HDInsight捆綁了Hortonworks HDP版本,是嗎?除了“PaaS與IaaS”方法的典型優勢之外,HDInsight還提供了什麼?
Chatterjee :Azure HDInsight確實提供了來自Hortonworks的HDP,然後對其進行了優化,使其能夠在Azure中對Azure儲存、Azure資料湖儲存(ADLS) Gen1和Gen2等遠端儲存進行操作。HDInsight是一個“託管平臺”,對於內部部署或IaaS部署,客戶可以獲得他們期望的全部控制權和可擴充套件性,同時仍然可以從高可用性SLA、24x7監控以及與他們希望從PaaS服務獲得其他Azure服務的深度整合中獲益。
InfoQ:儘管HDInsight採用了更多的PaaS方法,但是定製每個安裝容易嗎?
Chatterjee :有幾種方法可以定製Azure HDInsight叢集。首先,HDInsight允許客戶通過ssh接入HDI叢集,並根據他們的需求定製它,例如,通過安裝自己的工具、微調配置設定等。其次,HDInsight還允許客戶在準備叢集時執行自定義指令碼(又名ScriptAction),實現按需定製。
最後,客戶可以在Azure Marketplace上選擇Hadoop/Spark社群中最流行的30個應用程式中的任何一個,並將其安裝到它們的叢集中。這些應用程式針對大資料應用程式的所有方面都提供了獨特的解決方案,包括資料攝取、機器學習、視覺化、資料編排和治理等。
InfoQ: 從金融到醫療,在許多涉及大資料的垂直領域裡,企業安全都是一個很大的需求。HDInsight在這個領域提供了什麼?
Chatterjee :Azure HDInsight中的企業安全旨在提供全面的深度防禦。
網路隔離 :客戶可以在VNet(虛擬網路)中隔離他們的HDInsight叢集,並配置NSG規則,以確保只有經過批准的使用者/裝置才能訪問叢集。此外,它們可以使用服務端點安全來限制對包含最敏感資料的資料儲存的訪問。
身份驗證 :與所有Azure服務一樣,Azure HDInsight集成了Azure活動目錄(AAD),用於對所有的管理門戶或功能訪問進行身份驗證。要訪問實際的HDI叢集,HDInsight支援通過活動目錄域服務(ADDS)進行Kerberos身份驗證。這些特性使企業使用者能夠使用企業域憑證登入HDI叢集。
授權 :對於對所有的管理門戶/操作,除了要嚴格執行標準的基於Azure角色的訪問控制(RBAC)策略之外,Azure HDInsight還支援Apache Ranger,用於對Hive/Hbase表、Spark和Map Reduce任務、Kafka主題等進行細粒度訪問控制。
資料保護 :使用Azure HDInsight,客戶使用Azure儲存或ADLS Gen1和Gen2儲存資料。客戶可以利用這些儲存的靜態加密特性來保護他們的資料。客戶可以選擇是管理自己的加密金鑰(在Azure金鑰庫中),還是讓微軟代他們管理。
HDInsight確保所有移動中的資料都使用TLS加密。
InfoQ:Spark已經接管了大資料應用場景,這是否表明Hadoop已過時?您可以就Azure Databricks和Azure上的HDInsight/Spark做下對比嗎?
Chatterjee :雖然與Apache Hadoop(特別是關於查詢效能)相比,Apache Spark確實有其優勢,但我們看到,為了更好地滿足其使用者日益增長的需求,Hadoop和Spark棧都在進化。
Azure Databricks是一款高階Spark產品,非常適合希望他們的資料科學家能夠輕鬆協作、以行業領先的效能高效執行基於Spark的工作負載的客
Azure HDInsight將Hadoop和Spark統一管理,使企業能夠使用相同的工具集來管理它們,比如,使用Ambari、Apache Ranger等。通過支援Jupyter和Zeppelin筆記本,它還提供了行業標準的筆記本體驗。希望輕鬆管理所有大資料工作負載的企業可以選擇使用HDInsight。
InfoQ:您能談一下資料從以前的版本向HDInsight 4.0遷移並推薦一些最佳實踐嗎?
Chatterjee :我們剛剛釋出了基於Apache Hadoop 3.0的Azure HDInsight 4.0預覽版。我們正在與早期的採用者一起研究資料和程式碼從HDInsight的以前版本遷移的最佳實踐。在此之前,我們鼓勵客戶檢視開源社群提供的文件。
InfoQ:除了繼續與Hortonworks合作之外,您能否提供一個HDInsight 4.0之後的路線圖以及與Hadoop、Spark和其他社群合作的計劃?
Chatterjee :微軟將繼續積極地參與到更廣泛的開源社群中,向包括Apache Yarn在內的多個專案做貢獻,並在最流行的開發工具(如Eclipse、IntelliJ、VSCode等)中提供創新性的開發和診斷功能。此外,我們將繼續跟蹤資料領域中出現的場景和創新(如流媒體、深度學習、實時BI等),目標是為客戶提供最安全、最具成本效益的解決方案。
關於HDInsgiht最新版本的更多技術細節,請聽 Microsoft Ignite大會演講的錄音 。
檢視英文原文: Q&A with Microsoft's Arindam Chatterjee about Azure HDInsight 4.0