1. 程式人生 > >大資料學習——JAVA採集程式

大資料學習——JAVA採集程式

1 需求

從外部購買資料,資料提供方會實時將資料推送到6臺FTP伺服器上,我方部署6臺介面採集機來對接採集資料,並上傳到HDFS中

 

提供商在FTP上生成資料的規則是以小時為單位建立資料夾(2016-03-11-10),每分鐘生成一個檔案(00.dat,01.data,02.dat,........)

 

提供方不提供資料備份,推送到FTP伺服器的資料如果丟失,不再重新提供,且FTP伺服器磁碟空間有限,最多儲存最近10小時內的資料

 

由於每一個檔案比較小,只有150M左右,因此,我方在上傳到HDFS過程中,需要將15分鐘時段的資料合併成一個檔案上傳到HDFS

 

為了區分資料丟失的責任,我方在下載資料時最好進行校驗

2 設計分析