實習專案之(一)ETL過程的簡單手動實現
阿新 • • 發佈:2018-11-15
微博資料ETL
專案角色: 核心研發 開發組人員: 3
工作內容:
通過javase解析、結構化源資料並load到hive資料倉庫中,並使用hivesql、資料分析函式進行活躍度、影響力排行等分析工作。
一、專案簡介:
這個專案是自己在實習期間參與的第一個專案,我們的資料來源於
公司內部的爬蟲部門,整個ETL過程是自己手寫的UDF函式完成的
涉及到IO讀取,正則匹配,以指定格式輸出(利用面向物件的思
想,將指定的格式封裝成對應的屬性的物件,List),我們當時的研
究物件是新浪微博資料的一個主題下的評論區的內容,經過這個過
程呢,格式化就結束了,載入到資料倉庫中,這個ETL過程就算初
步OK了。
二、相關內容
(1)load資料的sql語句:
load data local inpath inpathname overwrite into table tablename;
(2)hivesql與mysql的區別
在sql語句方面:hive中不支援delete和update等操作
(3)名詞解析
活躍度:一般是指線上產品的使用者線上時長以及登入頻次
影響力:影響力是用一種別人所樂於接受的方式,改變他人的思想和行動的能
力。
(4)關於ETL工具
瞭解過 kettle,但是並未有過具體使用。
業界最有名的開源ETL工具。開源當然就免費,免費的有些東西使用就不是很方便
下載地址:http://kettle.pentaho.com/
---------------後續繼續補充