1. 程式人生 > >江蘇省公安廳警綜匯聚大數據項目DSG應用(13地市Oracle實時同步到省中心的Greenplum)

江蘇省公安廳警綜匯聚大數據項目DSG應用(13地市Oracle實時同步到省中心的Greenplum)

oracle 實時同步 greenplum POSTGRESQL 大數據

江蘇省公安廳
全省警綜匯聚大數據項目DSG應用
(oracle&greenplum)

項目概述
隨著大數據時代的到來,省廳下轄各級公安機關警綜系統采集匯聚的數據量日益巨大、數據結構更加復雜,增長迅速。目前,省廳還未建立有效的警綜系統數據匯聚手段,原有的數據抽取整合工具在傳輸海量結構化數據時效率低下,且無法滿足各類數據抽取整合的需要。為解決因數據分散導致的資源共享不及時、利用率不高等問題,省廳急需開展警綜系統數據匯聚整合工具建設,實現對下轄各級公安機關警綜系統的高效抽取匯聚和關聯整合,進一步豐富全警實戰應用需要。
需求描述
完成省廳下轄十三個地市警綜系統(Oracle)數據實時匯聚到省廳警綜系統集中庫(GP)。

? 省內下轄十三個地市的警綜系統進行數據匯聚,數據量目前估算約為20-24TB左右;
? 省內下轄十三個地市的警綜系統進行數據匯聚,要求數據為實時或準實時復制,原有數據匯聚整合工具,無法做到實時或準實時的數據匯聚,並經常發生丟或漏數據的情況;
? 省內下轄十三個地市的警綜系統進行數據匯聚,部分地市有個性化開發,導致有的地市表結構不完全相同(關鍵字段是有的),考慮匯聚共性字段;
? 省內下轄十三個地市的警綜系統進行數據匯聚,從地市警綜系統生產端壓力考慮,目前采用從警綜前置機或備份庫上進行數據匯聚,地市前置庫或備份庫具體建立技術標準,由省廳統一下發;
? 省內下轄十三個地市的警綜系統進行數據匯聚,為了便於對匯聚庫資源進行整合,地市相同表名的數據同步省廳,需要整合到同一個表內;

項目難點
在此項目中,需要實現oracle到GP之間的數據實時復制,這類解決方案在整個業界的可選性就不是很多,同時,涉及到的地市和數據量眾多,以及異構數據庫之間的各種技術細節,難點眾多。根據客戶的需求以及現有技術的特點,該項目主要存在以下幾方面的難點:

  1. 數據量大。全省13個地市的數據預計由20-30T,這就要求產品在數據的處理能力上要具有較高的效率。
  2. 實時性要求高。為滿足匯聚結果實時查詢的目標,所有地市數據匯聚的時延要求在秒級完成。
  3. 多種平臺混合復制。由於源端有13個生產庫或者生產庫的備庫,其中存在hp,aix等知名廠商的各種平臺系統,這就要求復制產品支持各種異構平臺。
  4. 基於表復制。每個系統抽取的數據均是部分表的數據。
  5. 索引異構。由於源端和生產系統,目標端是查詢系統,系統的功能不同導致相應的索引也有所不同。
  6. 分區異構。同樣由於系統功能不同,導致某些表的分區結構也不同,要求復制軟件能夠在分區異構的情況下也能正常復制。
  7. 多表合一。在多個系統中,有可能存在用戶名和表名均相同的情況,在復制過程中,需要解決多表合一的問題。
  8. Oracle數據庫和gp數據庫的兼容性。異構數據復制的過程中,不同種類的數據庫之間數據類型,操作差別等需要完成兼容轉換。

解決方案
經過數月的需求調研以及方案、產品的評比,結合現場環境的測試結果,最終DSG的產品方案在此項目中順利勝出,承擔江蘇省公安廳此次數據匯聚的項目建設。
架構圖:省廳下轄十三個地市警綜系統(Oracle)數據實時匯聚到省廳警綜系統集中庫(GP)系統架構如下:
技術分享圖片

* DSG方案優勢
江蘇省公安廳數據匯聚平臺,涉及江蘇省13個地市的警綜數據,各地市的系統、平臺等環境都存在一定差異,因此,如果要如此大規模的數據匯聚,存在諸多方面的挑戰。DSG給出的方案中,基本上解決了各種難題,主要體現如下:
1、 DSG產品方案成熟度高。在國內有大量客戶案例,在這類異構數據復制領域屬於領頭羊的地位
2、 DSG產品功能豐富,減輕現場工作量,降低項目建設周期和成本
3、 DSG具備數據高壓縮比,完成大數據量的快速傳輸和同步
4、 DSG基於日誌同步,相比傳統的ETL方案,對源端生產庫幾乎0影響,同時能完成高效數據同步,確保數據的準確性和一致性
5、 DSG產品屬於邏輯復制,具備非常高的靈活性,能夠很好滿足異構數據庫之間復制各種結構的異構的情況。
6、 定制化開發。針對現場的個性化以及異構數據庫之間的數據復制,可以依靠優秀的原廠研發資源,快速、高效率地完成,在此次項目中,根據現場的實際情況,把數據從oracle到greenplum的數據復制,存在以下方面的一些轉換:
序號 需求內容 解決方案 實現結果
1 字符集轉換 GBK轉換為UTF-8 實現
2 Blob 表處理 Blob 表源端導出過濾、目標端加載過濾 實現
3 Delete+insert Update 操作先delete後insert 實現
4 關鍵字特殊處理 表結構有特殊字段#或者是count(
) 進行轉換 實現
5 字段長度處理 字段長度太長,進行轉換處理 實現
6 Index 處理 根據需求制定特殊列的索引為btree 實現
7 增加loadtime列 增加gp入庫的時間標記 實現
8 增加rowid 增加rowid對no pk/uk提升update加載速度 實現
9 數據引號處理 入庫數據不需要‘’處理 實現
10 Delete 刪除優化 優化delete 操作 實現
11 Update更新優化 優化update 操作 實現

DSG公司簡介
DSG是領先的致力於數據存儲管理的專業廠商,提供優秀的大數據管理軟件和數據安全、災難恢復、數據抽取共享、數據歸檔檢索和一體化管理平臺在內的解決方案,產品包括:備份、容災、數據同步復制/抽取/共享、數據歸檔、數據稽核等,在國內得到了廣泛的應用。目前公司擁有員工近300余人、全國設有3個研發中心、20多個辦事處和分支機構,服務網點覆蓋全國,在中國市場擁有數百家電信、金融和政府行業的高端用戶。
SuperSync數據同步復制軟件應用:(國內800余家客戶,在原有強大的Oracle的實時同步復制/災備外,還可以支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/達夢/南大Gbase等國內外各類數據庫與Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿裏雲間的實時同步復制,可根據kafka等格式需求定制(添加字段/數據轉換/分類等),應用在大數據共享、讀寫分離和實時災備等方面。

江蘇省公安廳警綜匯聚大數據項目DSG應用(13地市Oracle實時同步到省中心的Greenplum)