1. 程式人生 > >廣告點選率預測 [離線部分]

廣告點選率預測 [離線部分]

         Note1. 上圖只是舉個例子,實現的時候,最好不要把User Info中的User ID在合併的時候去掉,否則在你的欄位配置檔案會有困難。2. Hadoop實現的時候,一定要考慮key skew的問題,否則會出現out of memory的問題。3. 要考慮Join的時候有多個Key的情況。4. 資料格式最好要求嚴一些,因為處理資料一些就是指令碼來寫,而如果把工作都放到了Join裡,那就是Hadoop Java了。5. 如果是要實現粗糙版本,這一步應該是可以跳過的,因為一般來講,對pCTR重要的特徵都是已經上報了的。6. Left Join的時候,要設定Null值,設定的時候注意點,不要設定0
之類的,Norm的時候又忘了。