1. 程式人生 > >使用python自動化處理三方資料入庫工作

使用python自動化處理三方資料入庫工作

工作流程描述:通過python爬蟲包定向爬取某個監測工具上公司的某個客戶的某個指標的廣告投放監控資料,放到運營介面上用於指導運營投放策略及技術部的競價模型的調優。日常的流程是:客戶確定需要觀察的指標,例如客戶A需要北上廣這三個城市的廣告投放佔比為40%,40%,20%,通過在伺服器後端的爬蟲中設定相應的引數得到資料,將得到的資料進行進一步處理,錄入到mysql的資料庫中。

Python自動化指令碼處理的目標描述:

1.    通過輸入引數,判斷客戶需要什麼樣的監測指標,判斷需要將資料輸入到mysql哪個庫裡面(客戶有時候關心target  audience,有時候關心audiencereach的比例,這兩個需求在mysql中有不同的庫表儲存)

2.    對爬蟲執行之後生成的資料定向輸出到檔案中,對檔案的內容進行文字處理,判斷生成的資料欄位是否存在,儲存到mysql的那一欄資料項中。

3.    將python自動化處理的過程在伺服器端設定根據不同的客戶設定不同的定時任務

用到的知識點:

1.python中執行shell命令

2.python讀取文字文件

3.python 逐行處理文字文件資料

4.python 將文字文件處理後資料拼接成sql,插入到對應的資料庫表中

在處理問題的過程中遇到的問題:

1.    python  os.popen(shell)後未能及時將os過程關閉,導致隨後的read文件失效

2.    list物件直接.append(object)是不會返回原列表的,所以不能a=list.append(str)

3.    保持好習慣注意每次生成的檔案的及時刪除

選取部分程式碼,以便日後更加清晰的記憶