（一）爬蟲之網頁下載

阿新 • • 發佈：2018-12-19

1，相關知識

　　robots.txt: 一些網站會定義robots.txt檔案（https://www.example.com/robots.txt），規定了網頁爬取的相關限制，檢視其內容，遵守規則可以避免過早IP被封。

　　　　下面為知乎robots.txt部分內容（https://www.zhihu.com/robots.txt）。（disallow 表示不允許爬取的url；Crawl-delay：10，表示兩次抓取之間需要10秒延遲）

　　sitemap:有的robots.txt的html原始碼中會給出網站的sitemap，獲得網站的sitemap，可以瞭解網站整體架構和各url路徑格式。

　　網站大小估計: 利用谷歌搜尋 site:example.com，根據顯示結果估計。如下圖23條結果，說明該域名下大概有23個子網頁。

　　識別網站所用技術：利用python第三方模組builtwith能夠返回網站使用相關技術。（安裝：pip install builtwith）

　　　　　　　　　　下圖檢視知乎使用的技術：builtwith.parse('https://www.zhihu.com')

　　檢視網站所有者：利用python第三方模組python-whois, 返回伺服器，郵箱等相關資訊。（pip install python-whois）

　　　　　　　　　　使用：whois.whois('https://www.zhihu.com')

2.網頁下載器和url佇列

　　網頁下載器：應該支援重試下載，使用者代理（user-agent），proxy代理等。程式碼如下：　　

def download(url,user_agent=None,proxies=None,num_retries=3):  #支援user-agent和proxy
    #proxies = {"http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080",}
    response=requests.get(url,headers={' 
User-Agent':user_agent},proxies=proxies)
    if response.status_code and 500<=response.status_code<600:  # 出現伺服器端錯誤時重試三次
        if num_retries > 0:
            response = download(url,user_agent,proxies,num_retries-1)
    return response

　　url佇列：管理需要下載的url。即從下載的網頁中提取出有用的url加入佇列，從佇列中取出下一個url進行爬取。需要實現url去重，下載延遲等。程式碼如下：

#coding:utf-8
import requests
import re
import urlparse
from datetime import datetime
import time

def link_carwl(start_url,link_regex,max_depth):  #link_regex 正則表示式，提取感興趣的url
    url_queue = [start_url]
    seen = set(url_queue)
    while url_queue:
        url = url_queue.pop()
        throttle =Throttle(3)  #相同域名延遲3秒訪問
        throttle.wait(url)
        response = download(url)
        for link in get_links(response.text):
            if re.match(link_regex,link):
                #urlparse.urljoin(url,link)  #link可能為相對路徑
                if link not in seen:   #不訪問重複的url
                    seen.add(url)
                    url_queue.append(link)
#url提取
def get_links(html):
    webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']',re.IGNORECASE)  #["\']匹配單引號或雙引號
    return webpage_regex.findall(html)

#同一個域名的下載延遲
class Throttle(object):
    def __init__(self,delay):
        self.delay = delay
        self.domains={}

    def wait(self,url):
        domain = urlparse.urlparse(url).netloc  #提取網址的域名
        last_accessed = self.domains.get(domain)
        if self.delay>0 and last_accessed!=None:
            sleep_secs = self.delay-(datetime.now()-last_accessed).seconds
            if sleep_secs>0:
                time.sleep(sleep_secs)
        self.domains[domain]=datetime.now()

　　如果需要設定網頁爬取深度，對於上面的link_carwl（）方法可以改進如下：

#深度設定，防止爬蟲陷阱（同一個域名下的網頁連結，一直向下訪問下去）
def link_carwl(start_url,link_regex,max_depth=5):   #設定最大深度為5
    url_queue = [start_url]
    seen = {start_url:0}
    while url_queue:
        url = url_queue.pop()
        throttle =Throttle(3)  #相同域名延遲3秒訪問
        throttle.wait(url)
        response = download(url)
        depth = seen[url]
        if depth<max_depth:
            for link in get_links(response.text):
                if re.match(link_regex,link):
                    #urlparse.urljoin(url,link)  #link可能為相對路徑
                    if link not in seen:   #不訪問重複的url
                        seen[link] =depth+1  #在url的深度基礎上加一
                        url_queue.append(link)

（一）爬蟲之網頁下載

1，相關知識　　robots.txt: 一些網站會定義robots.txt檔案（https://www.example.com/robots.txt），規定了網頁爬取的相關限制，檢視其內容，遵守規則可以避免過早IP被封。　　　　下面為知乎robots.txt部分內容（https://www.zhihu

（四）爬蟲之動態網頁

　　對於網頁上的有些內容，需要進行一定的互動操作，才能拿到相應的資料，例如常見的ajax請求等。為了抓取ajax請求的結果，可以通過ajax請求的url，抓取返回結果，也可以利用Selenium模組來模擬網頁ajax。簡單記錄下一段學習過程。 1.問題分析　　如下面我愛我家的網頁中（https://wh

Python3爬蟲（一）抓取網頁的html

因為程式碼只有幾行，所以可以先貼程式碼： import urllib.request url = r'http://douban.com' res = urllib.request.urlopen(url) html = res.read().decode('utf-

python爬蟲進階（一）：靜態網頁爬取

一、文章說明本文是在學習過程中的筆記分享，開發環境是win7，Python3，編輯器pycharm，文章中若有錯誤歡迎指出、積極討論。另外，推薦一個比較好的爬蟲教程二、課程基礎 1、HTML和CSS 爬蟲和網頁內容處處打交道，首先要掌握一部分前端內容。參考教程： 2、

linux學習（一）——學習之路

tcp/ip 阻塞結合調度了解選擇博客園要去事情首先，要學Linux編程，你得會用Linux，也就是得在命令行環境下生存下來。什麽叫生存下來呢？就是我現在給你一臺主機，鍵盤，顯示器啥的，然後給你一個服務器版的Linux系統的光盤或者其他什麽安裝盤，你去把這臺

（一）shiro之第一個項目

ner ppi ttr pid sta 等號 res ctype tco 一、創建maven的web工程，引入shiro依賴 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://w

（一）Centos之VMware虛擬機安裝

一個 pos spa 分享點擊 baidu class 技術分享圖標一、下載 64位的VM12 安裝包： http://pan.baidu.com/s/1bpzoXQZ 二、安裝點擊下一步：老規矩，打勾，下一步；這裏我們新建一個文件夾 VM

學習TP5（一）：TP5框架下載與快速入門使用

目標下載 TP5 框架並在本地執行出 TP5 預設 demo 下載安裝TP5框架 thinkphp 5.0 是為API開發而設計的的高效能框架，雖然釋出時間不長，但是因為上手容易，所以在國內很流行。反正就是一個挺好的後端框架，學學沒毛病。下載直接在

Java程式設計師從笨鳥到菜鳥之（八十五）跟我學jquery（一）愛之初體驗jquery

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Hadoop學習筆記（一）從官網下載安裝包

機器學習實踐（一）—sklearn之概述

1956年，人工智慧元年。人類能夠創造出人類還未知的東西。這未知的東西人類能夠保證它不誤入歧途嗎。一、機器學習和人工智慧，深度學習的關係機器學習是人工智慧的一個實現途徑深度學習是機器學習的一個方法發展而來二、機器學習，深度

Git學習第（一）篇：Git下載與安裝

最近在學習HTML5和css3的相關知識，選擇了Sublime Text3工具，有一個使用需求是想在家裡的筆記本和單位的筆記本之間共享專案程式碼，並進行版本管理，通過查閱資料發現git和gitHub可以滿足我的這個需要。本篇部落格記錄一下安裝過程。 Git下載安裝 1、訪問Git官網 &

深度學習實踐（一）—tensorflow之概述

內容預覽 1.1 深度學習與機器學習的區別 1.1.1 特徵提取方面 1.1.2 資料量和計算效能要求 1.1.3 演算法代表 1.2 深度學習的應用場景 1.2.1 影象識別 1.2

.Net並行程式設計（一）-TPL之資料並行

前言許多個人計算機和工作站都有多個CPU核心，可以同時執行多個執行緒。利用硬體的特性，使用並行化程式碼以在多個處理器之間分配工作。應用場景檔案批量上傳並行上傳單個檔案。也可以把一個檔案拆成幾段分開上傳，加快上傳速度。資料分批計算如幾百

（三）爬蟲之新增快取

　　對於爬取下來的網頁進行快取，可以方便下次訪問，無需再次下載。實現過程可以分為兩大塊，一是實現下載器，二是實現快取器。 1. 下載器：　　下載器功能：下載時先檢視快取中是否儲存url對應的檔案，不存在時再去訪問網頁端，並將結果加入到快取中，下載器程式碼如下： class Downloader(

我在ThoughtWorks學軟開（一）敏捷之於開發如同蜜糖，甜到發膩齁到憂傷

一、敏捷已死，有事燒紙 21世紀剛過一年，17位在軟體開發各領域有所建樹的大師匯聚在在美國猶他州，發表了似乎每個聚會都要發表的宣言（《敏捷軟體開發宣言》），併成立了Agile 聯盟，時間過去了十幾年，現如今當初的17個人裡有很多人都認為敏捷已死，let it go。敏捷似乎

（一）Spring 之IOC入門簡單例子

1. IOC 和 DI 是什麼 2.匯入Spring 的jar 包 3.實現IOC簡單例子的步驟（一）IOC 和 DI是什麼 IOC即控制反轉，意思是物件的建立不通過手動 new，而是把物件的建立權交給Spring來完成。 DI 即依賴注入，意思是 Spring主動建

CAFFE學習筆記（一）Caffe_Example之訓練mnist

0、參考文獻 [1]caffe官網《Training LeNet on MNIST with Caffe》; [2]薛開宇《讀書筆記4學習搭建自己的網路MNIST在caffe上進行訓練與學習》（[1]的翻譯版，同時還有作者的一些註解，很贊）; 1、*.sh

（一）演算法之暴力破解法

1.暴力破解 public class Baolipojie { /** * 雞兔同籠 * 設雞為x 兔為y */ @Test pu

《MySQL必知必會》學習筆記（一）、MySQL指令碼下載、執行及USE、SELECT的使用

本文主要介紹《MySQL必知必會》書中，所述的MySQL指令碼下載以及執行，並簡單介紹USE、SELECT關鍵字的基本使用。 1、MySQL指令碼下載及執行開啟MySQL command Line client（本文利用的是MySQL 8.0.

（一）爬蟲之網頁下載

相關推薦