1. 程式人生 > >實習專案之(一)ETL過程的簡單手動實現

實習專案之(一)ETL過程的簡單手動實現

微博資料ETL

專案角色: 核心研發 開發組人員: 3

工作內容:

通過javase解析、結構化源資料並load到hive資料倉庫中,並使用hivesql、資料分析函式進行活躍度、影響力排行等分析工作。

 

一、專案簡介

這個專案是自己在實習期間參與的第一個專案,我們的資料來源於

公司內部的爬蟲部門,整個ETL過程是自己手寫的UDF函式完成的

涉及到IO讀取,正則匹配,以指定格式輸出(利用面向物件的思

想,將指定的格式封裝成對應的屬性的物件,List),我們當時的研

究物件是新浪微博資料的一個主題下的評論區的內容,經過這個過

程呢,格式化就結束了,載入到資料倉庫中,這個ETL過程就算初

步OK了。

二、相關內容

(1)load資料的sql語句:

load data local inpath inpathname overwrite into table tablename;

(2)hivesql與mysql的區別

在sql語句方面:hive中不支援delete和update等操作

 

(3)名詞解析

活躍度:一般是指線上產品的使用者線上時長以及登入頻次

影響力:影響力是用一種別人所樂於接受的方式,改變他人的思想和行動的能

力。

(4)關於ETL工具

瞭解過 kettle,但是並未有過具體使用。

業界最有名的開源ETL工具。開源當然就免費,免費的有些東西使用就不是很方便

下載地址:http://kettle.pentaho.com/

---------------後續繼續補充