1. 程式人生 > >太平洋保險家園大數據項目DSG應用(30多個Oracle等實時同步到KAFKA)

太平洋保險家園大數據項目DSG應用(30多個Oracle等實時同步到KAFKA)

oracle kafka 大數據 實時同步 共享采集平臺

太平洋保險集團
“家園項目”大數據平臺DSG應用(oracle&kafka)

項目背景
根據太平洋保險集團的IT建設規劃,在2017年年底,需要完成“一個太保,共同的家園”項目(簡稱家園項目),旨在給客戶提供更加便攜、全面的服務,通過一個家園平臺,就能夠完成所有的服務。
眾所周知,太平洋保險的業務範圍非常廣泛,囊括了產險、壽險、車險等業務,同時,一個險種又由多個系統共同提供服務。現在要在一個平臺上完成這些服務,數據的匯聚、集中、轉換就成了整個項目的核心與難點。

項目需求
根據太保家園項目的最終目標,在一期建設中,需要將太平洋保險集團下屬的壽險,產險,車險等30多個核心系統數據,通過實時同步復制的方式,統一集中到大數據平臺。其中涉及數據的轉換,標化,清洗,去重等一系列過程,具體需求如下:

1、 需要將核心數據從30多個系統同步到大數據平臺的kafka組件。
2、 確保數據復制的實時性(秒級)和數據的準確性
3、 復制的數據需要加上時間,操作類型等標簽,便於後端應用識別
4、 以生產環境的dg庫作為數據的匯聚源端,減輕對生產庫的影響
5、 入kafka的數據格式可靈活配置,以便更好的適配後端應用
6、 需要具備數據操作統計和數據比對功能,便於核對數據的準確性

項目難點
在實現整個家園項目的數據匯聚中,根據項目需求和實際的生產環境情況,要完成整個數據同步,主要存在以下一些難點:

  1. 涉及的業務系統眾多。據初步規劃,此平臺需要接入的核心生產系統有30多個,既有oracle,也有mysql、db2等,每個系統的基礎平臺和數據格式千差萬別,
  2. 數據量大。目前整個平臺需要的數據容量超過30T。並且源端業務系統是非常嚴格的7x24小時系統,這就給初始化帶來很大的難度。
  3. 網絡帶寬資源有限。生產環境數據都在上海數據中心,大數據平臺在成都數據中心,中間的網絡帶寬是所有業務系統共用,因此不能過大占用帶寬資源。
  4. 業務量大。數據庫每天的歸檔量均在800G以上,參與復制的核心表,每秒鐘均有幾百上千筆業務。
  5. 延遲時間短。由於家園平臺需要給客戶提供實時的業務咨詢與辦理服務,復制的延遲不能超過10S,否則,用戶的體驗度大打折扣,違背家園項目建設的初衷。
  6. 數據準確性要求高。家園平臺承載著所有的查詢、部分業務辦理,如果數據不準確,必然引起業務邏輯混亂,無法為用戶提供服務等問題。

    解決方案
    在此方案中,采用DSG SuperSync產品完成oracle到kafka的數據復制,方案架構如上圖所示。在太保的系統架構中,生產中心位於上海,災備中心位於成都。所有核心系統在本地生產中心均建有一級DG庫,在成都災備中心建有二級DG庫。同時,此次項目的大數據中心也位於成都災備中心。基於這種架構考慮,把數據量較大的全量同步放在成都的二級DG庫上,這樣可以節省上海到成都的帶寬資源,同時提高同步效率。同時增量同步放在上海本地的一級DG庫,以滿足實時同步的要求。
    技術分享圖片

    方案優勢
    該方案具有以下優勢:

  7. 從架構層面,依賴於DSG產品對異構平臺的完美支持,將全量數據同步到集群的hdfs,增量數據同步到kafka,很好地解決了兩個數據中心的網絡帶寬資源有限的問題。
  8. 為減輕生產庫的壓力,支持以生產庫的DG庫作為源端進行數據復制
  9. 通過cjson模板,可高度自定義入kafka的數據格式
  10. 可自定義輸出數據內容,針對采集的數據可進行增刪改操作後,投遞到kafka中
  11. 數據可校驗。投遞入kafka的數據,操作數據會通過明細,定時統計,累計統計三個維度進行記錄,並把該記錄定時存放在指定位置,例如數據庫中,hdfs中或者文件系統中,以便後續業務進行數據操作的回查,實現數據校驗的功能。
  12. DSG SuperSync軟件支持不同平臺上的Oracle數據庫之間的快速同步,包括首次數據同步和增量數據復制。DSG SuperSync采用完全邏輯的方式進行數據同步,可以跨越不同平臺;並且在數據同步過程中,采用了DSG獨有的XF1文件格式、數據流壓縮技術和快速數據抽取和裝載技術。在配置多個同步通道的情況下,可以快速將現有數據庫內的數據同步到目標數據庫,並在其後將同步期間的增量數據一並復制到目標數據庫實現數據追平。目前DSG SuperSync支持主流平臺(HP/IBM/SUN/Comppaq/PC)上的Oracle各版本(Oracle8i – 10g)之間的數據復制。
  13. DSG SuperSync產品的數據復制效率,在該領域中是最高的。在kafka的投遞端,可以采用多線程、多並發等方式進行加速投遞,現場效率可以達到每秒2萬條的

    DSG簡介
    DSG是領先的致力於數據存儲管理的專業廠商,提供優秀的大數據管理軟件和數據安全、災難恢復、數據抽取共享、數據歸檔檢索和一體化管理平臺在內的解決方案,產品包括:備份、容災、數據同步復制/抽取/共享、數據歸檔、數據稽核等,在國內得到了廣泛的應用。目前公司擁有員工近300余人、全國設有3個研發中心、20多個辦事處和分支機構,服務網點覆蓋全國,在中國市場擁有數百家電信、金融和政府行業的高端用戶。
    SuperSync數據同步復制軟件應用:(國內800余家客戶,在原有強大的Oracle的實時同步復制/災備外,還可以支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/達夢/南大Gbase等國內外各類數據庫與Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿裏雲間的實時同步復制,可根據kafka等格式需求定制(添加字段/數據轉換/分類等),應用在大數據共享、讀寫分離和實時災備等方面。

太平洋保險家園大數據項目DSG應用(30多個Oracle等實時同步到KAFKA)