1. 程式人生 > >Python爬蟲實習筆記 | Week6 Daliy工作流水

Python爬蟲實習筆記 | Week6 Daliy工作流水

2018/11/19
1.所思所想
上午主要就是做自己的事情,是的,如果沒有一天天的積澱,而完全依靠專案中的不足而及時彌補,很難發現自己的痛點,並自覺的去完善。
下午可以說很成功,雖然沒有做具體任務,但卻解決了“困境”中的一環:不需要手動尋找我們需要爬取的資料,主要是url,而是根據html文件自有的特性,及所爬去模組的特徵去尋找,可以說相當棒了。

2.工作:
【1】184 長沙市環保局 沒找到 http://hbj.changsha.gov.cn/
【2】185 株洲市環保局  http://hbj.zhuzhou.gov.cn/c7738/index.html
【3】網頁內容爬取之通用化

2018/11/20
1.所思所想:
今天上午還是看python爬蟲實戰,感覺自己在慢慢前進,畢竟很多事並不是一蹴而就的。在這個過程中,我需要不斷提醒自己,要完善要精緻,對於自身的不足,需要努力彌補,然後終能有所為。上午百度雲的模擬登入簡直太棒了,但好像web發生了改版,所以還沒有成功模擬下。另外,下午用昨天的改進方法,效率大大提升,昨天應該是爬了9個市,真的驚人,我想如果能爬取到分頁頁碼中的資訊,應該會更快吧,加油!晚上去辦了健身卡,資金問題雪上加霜啊啊啊啊,這段時間儘量節儉,早晚稀飯,這樣不僅省錢,還能為保持健美體格做準備。

2.工作:
184-197 行政處罰 完成
188 邵陽市環保局  內容以圖片為主  http://hbj.shaoyang.gov.cn/Node-4108.html
189 岳陽市環保局  內容以圖片為主 http://zjj.yueyang.gov.cn/yyzjj/9180/24673/default.htm
190 常德市環保局  內容分頁,暫時無法取出 http://whj.changde.gov.cn/col/col26488/index.html?uid=64567&pageNum=1

192 益陽執行出現問題
197 湘西土家族苗族自治州環保局 內容以圖片為主 http://hbj.xxz.gov.cn/hjgl/hjjc/index.html

http://whj.changde.gov.cn/module/web/jpage/dataproxy.jsp?startrecord=46&endrecord=90&perpage=15   5
http://whj.changde.gov.cn/module/web/jpage/dataproxy.jsp?startrecord=46&endrecord=90&perpage=15   6

2018/11/21
1.所思所想:
今天我主要看了python爬蟲的Chapter10,對於模擬登入有了更深認識,即通過構造post提交的資料來實現,但遇到的問題是,可能網站將post資料進行了加密,這時處理起來就比較困難,另外,各欄位表示的含義也讓人煩心,比較難構造,以後在這塊努力下吧。下午,和本科生們開會,當我分享自己的技術技巧時,我覺得整個人是澎湃的,因為技術分享帶給我快樂。後,主要看的是python網路程式設計這一塊,為什麼要看這一塊呢?首先,我的計劃是11和12月,儘可能把python語言熟通,MySQL技術內幕看完,這樣,我才有明年3月份再找份實習的勇氣。二是,網路程式設計很重要,看到學長用Flask框架實現了檢測系統,感覺醍醐灌頂,自己需要學習的內容還有很多;第三,自己在框架方面需要彌補,自然無需多言。
2.工作:
【1】.驗證碼問題的識別,好好學習下。
【2】.Python網路程式設計

2018/11/22
1.所思所想
今天主要的事情彷彿就是開會了,談的主要事情包括規範,公司名,資料的儘可能多地爬取,簡歷的篩選,合作事宜等等。
今天上午看了python公眾號裡講的利用百度文字識別對驗證碼資訊進行處理,然而卻並沒有太大用處,然後我把該aip模組用於專案的圖片處理,發現效果尤其地好。所以說,要多看多思多總結,這樣就能彌補自身存在的知識盲區,完善自身存在的問題,從而屹立職業之巔。
下午時間所剩不多,然後就將網路程式設計部分看了下,還沒看完。。
2.工作
圖片的文字識別得到實現。


2018/11/23
1.所思所想
今天把剩餘的任務完成,然後開始做自己的事情,即網路程式設計相關,感覺很有收穫,對於書後習題,我也要認真練習,這樣才能有鞏固知識的目的。下午聽了馬亮學長關於天眼查遇到的驗證碼問題,目前自己還沒有明確的思路,說明自身實力還不夠,對於一個IP被檢測而跳出驗證碼,那該如何處理呢?需要好好思考!
2.工作
【1】今天處理時間問題發現了全形數字和半形數字的問題,解決策略是將數字轉換成int,然後再拼接成時間,比如2016和2016;
【2】其次,今天遇到個動態載入的網頁,資料都存放在<datastore></datastore>中,然後資料是通過post請求得到的,這時不是構造網頁網址,而是構造具體頁碼的地址,所以說要善於發現,善於歸納。
【3】網路程式設計的功能實現與完善。