1. 程式人生 > >“3+3”看華為雲FusionInsight如何引領“資料新基建”持續發展

“3+3”看華為雲FusionInsight如何引領“資料新基建”持續發展

摘要:一個統一的現代化的資料基建需要三類架構來實踐三種不同的應用場景。

近期,美國知名科技企業風投機構A16Z總結出一套通用的技術架構服務,分為以下三種場景。

一、資料基建架構全景

資料流向顯示,左側的資料來源經資料處理(批量、實時流、事件流等)將資料統一匯聚到資料湖或數倉中,通過資料科學或機器學習進行AI分析,通過AD Hoc和實時分析為客戶或APP提供敏捷的結果資料。華為雲FusionInsight為政企客戶提供一站式全場景的雲原生資料湖,圍繞政企客戶在採存算管用等資料全生命週期提供領先的整體解決方案,方案主要包含MRS大資料、DWS資料倉庫、一站式資料治理中心等雲服務,助力政企客戶釋放海量資料價值!其架構如下:

上千個大型客戶已經基於FusionInsight架構構建其大資料應用平臺。

A16Z經過調查相關業內人士得出一個結論:一個統一的現代化的資料基建需要三類架構來實踐三種不同的應用場景。

  1. 現代化 BI 架構
  2. 多模式資料處理架構
  3. 人工智慧和機器學習架構

1.現代化 BI 架構

這是對小型資料團隊和預算有限的企業的預設選項,企業逐漸從傳統數倉遷移到這個架構,利用雲的靈活度和可擴充套件性。

應用場景包含:報表,儀表盤,自助式分析,主要使用SQL來分析結構化資料。

  • 優勢:前期投入低,啟動快,市場上人才儲備充分。
  • 缺陷:對於資料場景複雜的團隊不適用,比如需要資料科學,機器學習,或者實時場景。

傳統的小型資料團隊其面對的資料基本以核心交易系統的RDBMS結構化資料為主,資料量在GB級,普通的數倉都可支援其資料的分析挖掘,無需大資料支撐就可完成,這種處理方式在2008年時的大型企業中也較為常見,其資料量較小基本上使用數倉就可完成日常的資料大屏、資料分析等工作。這是對小型資料團隊和預算有限的企業的預設選項,利用雲的靈活度和可擴充套件性,企業逐漸從傳統數倉遷移到這個架構。

華為雲FusionInsight可提供企業級數倉,DWS目前服務於全球1000+大型客戶,廣泛應用於政府、金融、運營商、大企業等領域。產品始於2011年,經歷將近10年技術積累,已取得180+國內外授權專利。DWS可支撐日常的結構化資料分析,其具有如下特點:

  1. 大規模:GaussDB(DWS)基於分散式架構,在保證ACID的基礎下,突破大規模分散式場景下叢集通訊(Multi-Streams)、邏輯叢集(Multi-Groups)技術,具備2048節點擴充套件能力。值得一提的是,邏輯叢集可將ODS、資料倉庫、資料集市、自助分析等不同業務負載,有機的統一起來,有效隔離、有效共享。
  2. 高效能:GaussDB(DWS)具備多層級全平行計算引擎。支援多個物理節點平行計算,在一個物理節點內部,支援多個CPU核心平行計算,在一個CPU核心的指令序列中,支援SIMD指令,實現一個指令同時操作多條資料。將並行能力發揮到極致,為業務提供極致的效能。另外,Multi-Cores技術使得在鯤鵬上效能相比同代x86晶片提升30%以上。
  3. 高可靠:GaussDB(DWS)具備多層級容災能力,在AZ、叢集、節點及程序出現軟硬體異常的情況下能夠平滑處理。另外,Server端Multi-Retries技術大幅減少故障失敗的業務感知;其次,在棘手的亞健康問題上,GaussDB(DWS)也有完善的檢測和處理機制;最後,離線擴容、半線上擴容、線上擴容技術能夠從容應對客戶不同的擴容需求。

華為雲DWS資料倉庫技術核心是分散式架構,過去十年一直圍繞分散式構築競爭力。未來,GaussDB(DWS) 資料倉庫將基於分散式架構持續演進,圍繞雲、大資料、5G/IoT、人工智慧,構築下一代開放的、全場景分析型資料庫。

2.多模式資料處理架構

這個架構通常用於大型企業和科技公司,用來滿足複雜的資料需求場景。

應用場景包括:BI及高階功能,包括AI/ML,低延時分析,大規模資料轉換,多型別的資料處理(文字,影象和視訊)使用各種語言(JAVA/SCALA,Python和SQL)

  • 優勢:能靈活的支援各種應用,工具和UDF和部署環境。在大規模資料集上的成本優勢。
  • 缺陷:不適合小型資料團隊,維護這套架構需要較多的時間,費用和專家資源投入。

在現實世界中,需求側覺醒的同時,在平行的賽博世界中,技術的進化也一直在持續。自從2006年Apache Hadoop架構釋出以來,到2011年,企業逐漸採用Hadoop架構演進出來的開源或商用大資料軟體,開啟了離線計算時代;2012年,以Spark等為核心的流式計算開啟了實時計算時代,線上分析和實時計算的場景也開始逐漸應用,但這一階段的使用者主要是開發人員;2013年至今,隨著資料的激增,大資料平臺演進成了融合大資料平臺,而隨著AI等技術的突飛猛進,從資料分析到資料探勘,大資料平臺向著智慧化進行演進。

權威調研機構IDC表示,“數字化時代下的競爭正在加速,市場參與者要麼通過數字化轉型成為領頭企業形成規模化優勢,要麼將逐漸被市場淘汰”。隨著5G、AI、IoT等技術的迅猛發展,到2025年,全球資料量將從2018年的33ZB快速增長到180ZB,全球數字經濟總量將達25萬億,CEO也越來越重視,參與度高達67%,數字化技術讓投資回報率達到6.7倍,政企數字化程序為64%。綜上可知,數字化轉型是政企充分釋放複雜場景用數需求的必經之路。

數字底座如此關鍵,那麼大資料作為主要承載技術,自然是其重中之重。華為雲FusionInsight提供MRS資料湖服務,讓政企客戶在一個大、快、融、穩的雲原生資料湖架構下持續演進:

1)大:支援最大2萬+節點大規模叢集,可叢集聯邦無限擴容;

2)快:可T+0實時增量更新同步,可毫秒級高效實時OLAP,縮短分析鏈路,實現實時資料湖;

3)融:通過HetuEngine打破多引擎、多源、跨地域的限制,消除資料孤島,統一SQL介面融合分析,簡化用數,全民BI;

4)穩:支援線上滾動升級,無需拆叢集、搬應用,使客戶一個架構持續演進,十年無憂!

5)雲原生資料湖:通過統一元資料,讓資料全域性可視;通過存算分離的企業級EC,降低TCO。

華為雲大資料,自2008 年開始投入研究,最早於2014年推出商用產品,秉承開源開放的心態,踐行“平臺+生態”戰略,華為雲踩對了歷史的程序,圍繞政企大資料全生命週期,華為雲FusionInsight是一個技術領先的雲原生智慧資料湖,是華為雲三大使能之資料使能方案的堅實資料底座。

3. 人工智慧和機器學習架構

應用機器學習的公司已經在使用這套架構的一部分技術。深度使用機器學習的企業會部署整套架構,甚至自研新的工具。

  • 場景:資料驅動的內外部應用程式,場景有實時的或批處理的。
  • 優勢:完全掌控整體的開發過程,將機器學習打造為企業核心且長期的能力。
  • 缺陷:不適合尚在探索機器學習,只為小範圍的內部應用場景。大規模應用機器學習仍是當前最大的資料挑戰

華為雲ModelArts為政企客戶提供一站式的AI訓練和推理平臺,其具有如下特點:

  • 支援AI全棧、全流程、全場景開發訓練
  • 支援資源統一管理、統一池化排程
  • 支援業界主流引擎和自研引擎,實現零成本遷移
  • 提供多維度功能特性,滿足各類使用者

在近日釋出的《IDC MarketScape: 中國大資料管理平臺廠商評估,2020》(以下簡稱IDC大資料報告)報告中,對中國主流大資料廠商從能力、戰略、市場份額三個維度進行了全面評估,華為雲位居領導者象限領先位置,並在技術實力和市場份額兩大維度雙領先在技術上持續創新打磨之外,華為雲FusionInsight也是“最懂行”的大資料解決方案:

在政府領域,國內50%的智慧城市都有華為雲FusionInsight的孜孜不倦的身影,華為雲大資料已支撐多個部委和各省市地區建設“大資料+政務”。在某市,華為雲FusionInsight聯合夥伴建成“一雲二網三平臺”,在統一的政務資料邏輯模型的指導下,針對民生、產業、政府的“痛點”和“難點”,從構建城市資料資源庫為開端,以大資料分析支撐政府智慧決策,以建設智慧應用為抓手,打破資訊孤島,實現資訊資源交換共享,在 “數聚惠民”、“數聚興業”、“數聚善政”三大方面,發揮大資料的威力,支撐 “一號、一窗、一網” 政務服務,讓簡政放權、百姓辦業務“最多跑一次”成為現實。

在金融領域,國內50%的TOP20金融客戶(含銀行、證券、保險等)均已使用華為雲FusionInsight構建其大資料平臺。某行使用華為雲FusionInsight構建大資料基礎平臺,支撐了銀行企業級資料湖、資料倉庫、集團資訊庫為核心的“一湖兩庫”建設,承載了總行及各支行業務系統,支撐日常銀行BI、AI、資料探勘、資料分析等,實現了一份資料全域性可用,免除資料搬遷,提升協同效率10倍,儲存週期提升2倍,資源利用率最大可達90%,加速銀行數字化轉型程序。

在運營商領域,國內三大運營商均使用華為雲FusionInsight構建其大資料平臺。廣東移動基於華為雲FusionInsight,聯合政企客戶共同打造智慧電網、智慧交通、智慧港口、高清視訊等系列標杆應用,打通資料全生命週期鏈路,實現對內業務支撐、對外應用賦能,全面支撐了各類政務、民生等大資料應用服務。

在交通領域,深圳地鐵在6、10號線採用華為雲FusionInsight構建大資料分析平臺,打造領先的5G+大資料方案,並構建其資料資產中心和執行監控中心,承載地鐵各業務系統,支撐裝置健康、能耗管理、客流統計、線路中心級監控、應急決策和影象型火災分析等線路級資料分析,資料分析效率從周級縮短至分鐘級,實現高效運營,推動深圳步入更美好的全聯接數字化軌道交通新時代…

除過在以上各行業的應用,在環境保護方面,青海綠能資料有限公司基於華為雲FusionInsight構建了國內首個能源大資料創新平臺,實現了規劃輔助決策、用氣象資料科學指導發電等創新業務,為上下游產業鏈企業提供25類47項資料服務,推動28座新能源場站實現了“無人值班、少人值守”,並有效支撐了青海“綠電15日”,以大資料為基石,建設綠色新青海,守護高原和諧生態。

同時,華為堅持“自己的降落傘自己先跳”,華為集團IT通過FusionInsight構建OneData大資料叢集,實現大資料平臺在大規模場景下的開拓,OneData叢集其規模已至1萬+節點;同時,實現了統一的資料管理服務,在菩提海UniDB產品中,通過邏輯統一方式,把50+物理分散的計算叢集(Hadoop+MPP),基於五統一(資料安全,元資料目錄,資料整合,資料訪問,任務排程),整合成湖倉一體的架構,支撐上千個企業租戶的PB級資料分析處理需求。一個基於FusionInsight MRS+DWS 的“+治理,+AI,+運營,+雲”的融合資料底座(菩提海)已經在華為集團IT廣泛使用,未來可期。

以上只是“冰山的一角”,華為雲FusionInsight一方面不斷深入理解客戶不斷髮展的業務訴求,另一方面,持續技術創新並引領行業發展,商業訴求+技術創新雙輪驅動行業可持續、高質量發展,“用數”助力客戶商業成功!上面的論述已經充分證明,華為雲是“懂行”的大資料領導者,真正讓客戶用好數、管好數、放心用。

據瞭解,截至2020 年10月底,華為雲FusionInsight 智慧資料湖已服務60+個國家和地區,3,000+客戶,覆蓋政府、金融、運營商、電力、傳媒、醫療、教育、交通、油氣、物流、零售、製造、網際網路等行業。

 

點選關注,第一時間瞭解華為雲新鮮技