1. 程式人生 > >用Python寫網絡爬蟲(高清版)PDF

用Python寫網絡爬蟲(高清版)PDF

頁面 逆向 網上 編程語言 線程 ajax 是什麽 保護 term

用Python寫網絡爬蟲(高清版)PDF
百度網盤
鏈接:https://pan.baidu.com/s/1kdRFAEuze-A9ToWVXHoCXw
提取碼:8ib1
復制這段內容後打開百度網盤手機App,操作更方便哦
內容簡介 · · · · · ·
作為一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取復雜的網站。
《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹了如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的復雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。
《用Python寫網絡爬蟲》介紹了如下內容:
通過跟蹤鏈接來爬取網站;
使用lxml從頁面中抽取數據;
構建線程爬蟲來並行爬取頁面;
將下載的內容進行緩存,以降低帶寬消耗;
解析依賴於JavaScript的網站;
與表單和會話進行交互;
解決受保護頁面的驗證碼問題;
對AJAX調用進行逆向工程;
使用Scrapy創建高級爬蟲。
本書讀者對象
本書是為想要構建可靠的數據爬取解決方案的開發人員寫作的,本書假定讀者具有一定的Python編程經驗。當然,具備其他編程語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原理

目錄 · · · · · ·
第1章 網絡爬蟲簡介 1
1.1 網絡爬蟲何時有用 1
1.2 網絡爬蟲是否合法 2

1.3 背景調研 3
1.3.1 檢查robots.txt 3
1.3.2 檢查網站地圖 4
1.3.3 估算網站大小 5
1.3.4 識別網站所用技術 7
1.3.5 尋找網站所有者 7
1.4 編寫第一個網絡爬蟲 8
1.4.1 下載網頁 9
1.4.2 網站地圖爬蟲 12
1.4.3 ID遍歷爬蟲 13
1.4.4 鏈接爬蟲 15
1.5 本章小結 22
第2章 數據抓取 23
2.1 分析網頁 23
2.2 三種網頁抓取方法 26
2.2.1 正則表達式 26
2.2.2 Beautiful Soup 28
2.2.3 Lxml 30
2.2.4 性能對比 32
2.2.5 結論 35
2.2.6 為鏈接爬蟲添加抓取回調 35
2.3 本章小結 38
第3章 下載緩存 39
3.1 為鏈接爬蟲添加緩存支持 39
3.2 磁盤緩存 42
3.2.1 實現 44
3.2.2 緩存測試 46
3.2.3 節省磁盤空間 46
3.2.4 清理過期數據 47
3.2.5 缺點 48
3.3 數據庫緩存 49
3.3.1 NoSQL是什麽 50
3.3.2 安裝MongoDB 50
3.3.3 MongoDB概述 50
3.3.4 MongoDB緩存實現 52
3.3.5 壓縮 54
3.3.6 緩存測試 54
3.4 本章小結 55
第4章 並發下載 57
4.1 100萬個網頁 57
4.2 串行爬蟲 60
4.3 多線程爬蟲 60
技術分享圖片

用Python寫網絡爬蟲(高清版)PDF