基於Flume、Kafka技術實現新能源大資料中心資料採集
隨著近幾年新能源發電行業的迅猛發展,新能源大資料中心平臺建設也悄然興起。越來越多的新能源企業投入人力、物力和財力著手建設自己的大資料中心,旨在提升生產管理水平和發電經濟效益。大資料中心建設首先要解決的問題是大量資料的採集,資料採集的過程是從場站側資料來源到大資料中心的儲存,在這個採集過程中,要保證資料採集的可靠性、安全性、可擴充套件性等等。 本文提出基於Flue、Kafka技術實現新能源大資料中心資料採集 ,系統架構圖如下所示:

系統架構
場站側支援光伏電站和風電場不同型別資料來源採集,採用Flume技術實現,Flume採集的資料經Source、Memory Channel、Kafka Sink推送到大資料中心Kafka訊息佇列快取。同時,採集資料經Source、JDBC Channel、HBase Sink在本地資料庫中也儲存一份。另外,為了滿足資料補採要求,場站側提供RESTful服務從本地資料庫中讀取歷史資料,提供大資料中心補採資料使用。Flume的Sink在將Channel資料成功傳送之後,才將Channel中快取的資料清除,極大的提高了資料採集的可靠性。Flume系統結構設計,如下圖所示:

系統結構
採集資料從場站側傳輸到大資料中心Kafka訊息佇列過程中,採用對稱加密對資料進行加密,以提升資料安全性,資料傳輸內容統一採用JSON格式,內容包括測點編號、測點型別、測點值、時間戳。測點編號統一規劃,保證其在整個大資料中心資料庫中的唯一性。
另外,在大資料中心側的Kafka訊息佇列中,為每一個場站指定1到n個主題,Kafka自動分配若干分割槽,以供採集資料快取訊息使用。當系統或網路出現異常時,大資料中心與場站側資料採集出現中斷,對於中斷的資料,可以通過大資料中心提供的資料補採機制,遠端呼叫場站側提供的RESTful服務,從場站側將缺失資料補採至大資料中心。Kafka中快取的資料或補採獲取的資料,將最終儲存在資料中心資料庫中。如下圖所示:

大資料中心結構
在場站側擴建或新建場站需要採集資料時,僅需要增加相應的Flume採集程序,在不中斷原有資料採集程序的情況下,即可完成系統升級和擴充套件,系統靈活可擴充套件。
結束語:基於Flume、Kafka技術實現的新能源大資料中心資料採集系統技術架構,可靠性和安全性高,系統故障恢復能力強,且容易擴充套件和升級。