1. 程式人生 > >《精通Python網路爬蟲》新書推薦

《精通Python網路爬蟲》新書推薦

書籍名稱:精通Python網路爬蟲

書籍定位:Python網路爬蟲初學者

書籍簡介:

 本書從技術、工具與實戰3個維度講解了Python網路爬蟲:   技術維度:詳細講解了Python網路爬蟲實現的核心技術,包括網路爬蟲的工作原理、如何用urllib庫編寫網路爬蟲、爬蟲的異常處理、正則表示式、爬蟲中Cookie的使用、爬蟲的瀏覽器偽裝技術、定向爬取技術、反爬蟲技術,以及如何自己動手編寫網路爬蟲;   工具維度:以流行的Python網路爬蟲框架Scrapy為物件,詳細講解了Scrapy的功能使用、高階技巧、架構設計、實現原理,以及如何通過Scrapy來更便捷、高效地編寫網路爬蟲;   實戰維度:以實戰為導向,是本書的主旨,除了完全通過手動程式設計實現網路爬蟲和通過Scrapy框架實現網路爬蟲的實戰案例以外,本書還有部落格爬取、圖片爬取、模擬登入等多個綜合性的網路爬蟲實踐案例。   作者在Python領域有非常深厚的積累,不僅精通Python網路爬蟲,在Python機器學習、Python資料分析與挖掘、Python Web開發等多個領域都有豐富的實戰經驗。

作者簡介:

韋瑋,資深網路爬蟲技術專家、大資料專家和軟體開發工程師,從事大型軟體開發與技術服務多年,現任重慶韜翔網路科技有限公司創始人兼CEO,國家專利發明人。  精通Python技術,在Python網路爬蟲、Python機器學習、Python資料分析與挖掘、Python Web開發等多個領域都有豐富的實戰經驗。  CSDN、51CTO、天善智慧等科技類社群和媒體的特邀專家和講師,輸出了大量的高質量課程和文章,深受使用者喜愛。

書籍目錄:

前 言  第一篇 理論基礎篇  第1章 什麼是網路爬蟲 3  1.1 初識網路爬蟲 3  1.2 為什麼要學網路爬蟲 4  1.3 網路爬蟲的組成 5  1.4 網路爬蟲的型別 6  1.5 爬蟲擴充套件——聚焦爬蟲 7  1.6 小結 8  第2章 網路爬蟲技能總覽 9  2.1 網路爬蟲技能總覽圖 9  2.2 搜尋引擎核心 10  2.3 使用者爬蟲的那些事兒 11  2.4 小結 12  第二篇 核心技術篇  第3章 網路爬蟲實現原理與實現技術 15  3.1 網路爬蟲實現原理詳解 15  3.2 爬行策略 17  3.3 網頁更新策略 18  3.4 網頁分析演算法 20  3.5 身份識別 21  3.6 網路爬蟲實現技術 21  3.7 例項——metaseeker 22  3.8 小結 27  第4章 Urllib庫與URLError異常處理 29  4.1 什麼是Urllib庫 29  4.2 快速使用Urllib爬取網頁 30  4.3 瀏覽器的模擬——Headers屬性 34  4.4 超時設定 37  4.5 HTTP協議請求實戰 39  4.6 代理伺服器的設定 44  4.7 DebugLog實戰 45  4.8 異常處理神器——URLError實戰 46  4.9 小結 51  第5章 正則表示式與Cookie的使用 52  5.1 什麼是正則表示式 52  5.2 正則表示式基礎知識 52  5.3 正則表示式常見函式 61  5.4 常見例項解析 64  5.5 什麼是Cookie 66  5.6 Cookiejar實戰精析 66  5.7 小結 71  第6章 手寫Python爬蟲 73  6.1 圖片爬蟲實戰 73  6.2 連結爬蟲實戰 78  6.3 糗事百科爬蟲實戰 80  6.4 微信爬蟲實戰 82  6.5 什麼是多執行緒爬蟲 89  6.6 多執行緒爬蟲實戰 90  6.7 小結 98  第7章 學會使用Fiddler 99  7.1 什麼是Fiddler 99  7.2 爬蟲與Fiddler的關係 100  7.3 Fiddler的基本原理與基本介面 100  7.4 Fiddler捕獲會話功能 102  7.5 使用QuickExec命令列 104  7.6 Fiddler斷點功能 106  7.7 Fiddler會話查詢功能 111  7.8 Fiddler的其他功能 111  7.9 小結 113  第8章 爬蟲的瀏覽器偽裝技術 114  8.1 什麼是瀏覽器偽裝技術 114  8.2 瀏覽器偽裝技術準備工作 115  8.3 爬蟲的瀏覽器偽裝技術實戰 117  8.4 小結 121  第9章 爬蟲的定向爬取技術 122  9.1 什麼是爬蟲的定向爬取技術 122  9.2 定向爬取的相關步驟與策略 123  9.3 定向爬取實戰 124  9.4 小結 130  第三篇 框架實現篇  第10章 瞭解Python爬蟲框架 133  10.1 什麼是Python爬蟲框架 133  10.2 常見的Python爬蟲框架 133  10.3 認識Scrapy框架 134  10.4 認識Crawley框架 135  10.5 認識Portia框架 136  10.6 認識newspaper框架 138  10.7 認識Python-goose框架 139  10.8 小結 140  第11章 爬蟲利器——Scrapy安裝與配置 141  11.1 在Windows7下安裝及配置Scrapy實戰詳解 141  11.2 在Linux(Centos)下安裝及配置Scrapy實戰詳解 147  11.3 在MAC下安裝及配置Scrapy實戰詳解 158  11.4 小結 161  第12章 開啟Scrapy爬蟲專案之旅 162  12.1 認識Scrapy專案的目錄結構 162  12.2 用Scrapy進行爬蟲專案管理 163  12.3 常用工具命令 166  12.4 實戰:Items的編寫 181  12.5 實戰:Spider的編寫 183  12.6 XPath基礎 187  12.7 Spider類引數傳遞 188  12.8 用XMLFeedSpider來分析XML源 191  12.9 學會使用CSVFeedSpider 197  12.10 Scrapy爬蟲多開技能 200  12.11 避免被禁止 206  12.12 小結 212  第13章 Scrapy核心架構 214  13.1 初識Scrapy架構 214  13.2 常用的Scrapy元件詳解 215  13.3 Scrapy工作流 217  13.4 小結 219  第14章 Scrapy中文輸出與儲存 220  14.1 Scrapy的中文輸出 220  14.2 Scrapy的中文儲存 223  14.3 輸出中文到JSON檔案 225  14.4 小結 230  第15章 編寫自動爬取網頁的爬蟲 231  15.1 實戰:items的編寫 231  15.2 實戰:pipelines的編寫 233  15.3 實戰:settings的編寫 234  15.4 自動爬蟲編寫實戰 234  15.5 除錯與執行 239  15.6 小結 242  第16章 CrawlSpider 243  16.1 初識CrawlSpider 243  16.2 連結提取器 244  16.3 實戰:CrawlSpider例項 245  16.4 小結 249  第17章 Scrapy高階應用 250  17.1 如何在Python3中操作資料庫 250  17.2 爬取內容寫進MySQL 254  17.3 小結 259  第四篇 專案實戰篇  第18章 部落格類爬蟲專案 263  18.1 部落格類爬蟲專案功能分析 263  18.2 部落格類爬蟲專案實現思路 264  18.3 部落格類爬蟲專案編寫實戰 264  18.4 除錯與執行 274  18.5 小結 275  第19章 圖片類爬蟲專案 276  19.1 圖片類爬蟲專案功能分析 276  19.2 圖片類爬蟲專案實現思路 277  19.3 圖片類爬蟲專案編寫實戰 277  19.4 除錯與執行 281  19.5 小結 282  第20章 模擬登入爬蟲專案 283  20.1 模擬登入爬蟲專案功能分析 283  20.2 模擬登入爬蟲專案實現思路 283  20.3 模擬登入爬蟲專案編寫實戰 284  20.4 除錯與執行 292  20.5 小結 294 

需要書籍資料請加QQ群:832339352加群即可獲取!