1. 程式人生 > >Python爬蟲教程:多執行緒爬取電子書

Python爬蟲教程:多執行緒爬取電子書


程式碼非常簡單,有咱們前面的教程做鋪墊,很少的程式碼就可以實現完整的功能了,最後把採集到的內容寫到  csv 檔案裡面,(  csv  是啥,你百度一下就知道了) 這段程式碼是  IO密集操作  我們採用  aiohttp  模組編寫。

Python學習資料或者需要程式碼、視訊加Python學習群:960410445

第1步

拼接URL,開啟執行緒。

上面的程式碼可以同步開啟N多個執行緒,但是這樣子很容易造成別人的伺服器癱瘓,所以,我們必須要限制一下併發次數,下面的程式碼,你自己嘗試放到指定的位置吧。

第2步

處理抓取到的網頁原始碼,提取我們想要的元素,我新增了一個方法,採用 lxml 進行資料提取。


第3步

資料格式化之後,儲存到 csv 檔案,收工!


執行程式碼,檢視結果