1. 程式人生 > >Python爬蟲實習筆記 | Week8 Daliy工作流水

Python爬蟲實習筆記 | Week8 Daliy工作流水

2018/12/3
1.所思所想
今天時間過得好快,自己還有很多事情沒有做好,從今天起,每天解決一個公司專案中遇到的難題,這樣,才能將自己所學運用於實踐。
2.工作
暫時將《核心程式設計》的資料庫程式設計部分看完,這樣,之後更改時間更新的程式碼會遊刃有餘。
之前的《核心程式設計》多執行緒程式設計以及網路程式設計還需要細細總結。

2018/12/4
1.所思所想
今天主要可以做自己的事情,這真的是一件很爽的事情,主要解決了4個問題,這在工作部分有說明。另外,自己的Scrapy框架部分還沒有開始看,四川21市還沒有開始爬,需要注意時間。
2.工作:
【1】.今天蔚藍地圖的資料爬取出現問題,問題原因在於Cookie過期,後來將pageSize改為1000(網頁沒有那麼大的值),後可以順利爬取完成;
【2】.昨天討論了資料庫中表的變更問題,今天得到妥善解決;
【3】.主函式中的test_url可以從資料庫中讀取;
【4】.城市和省份根據城市名從資料庫中讀取,而不需要每次手動,這樣可以避免很多錯誤。

[1].行政處罰的更新模組完成;
[2].監測資料需要將黃云云走後重新刷一遍。
[3].Scrapy框架需要認真看。
[4].《核心程式設計》需要總結
[5].行政處罰中的各資料段需要模組化;
[6].標準:240

2018/12/5
1.所思所想
加油!
2.工作
【1】.資料庫操作
【2】.《MySQL技術內幕》

2018/12/6
1.所思所想
最近比較急躁,原因在於自己的任務拖延已久,很多事情還沒有去安心做好;此外,演算法競賽需要花時間去好好琢磨,嗯,慢慢來。工作中需要好好積累,稍微提前或準數完成任務。
2.工作
【1】.線上監測蘇州爬完;
【2】.信用等級爬完,發給馬良;
【3】.行政處罰四川21市爬完;
【4】.正則還需要認真學習!

(1).240成都市   未爬
(2).241自貢市   沒找到
(3).242攀枝花市 爬取成功 但內容為圖片
(4).243瀘州市 爬取成功 但內容為圖片
(5).244德陽市 爬取成功 但內容為pdf
(6).245綿陽市 爬取成功 但內容為pdf
(7).246廣元市 爬取成功 但內容為pdf
(8).247遂寧市 爬取成功 get
(9).248內江市 爬取成功 但內容為pdf
(10).249樂山市 爬取成功 但內容為圖片
(11).250南充市 爬取成功 內容為pdf
(12).251眉山市 爬取成功 內容為pdf

【1】.行政處罰更新問題
【2】.Excel的指令碼處理——插入資料庫

2018/12/07
1.所思所想
加油,自己需要不斷執行,完成遇到的每項阻礙。對於沒接觸過的任務,需要抱著一顆平常而審慎的內心,去擁抱變化。
2.工作
蘇州市各維度資料更新。