python爬蟲讀書筆記（2）

阿新 • • 發佈：2018-11-09

1.網站地圖爬蟲

def crawl_sitemap(url):
    #下載網站地圖檔案
    sitemap=download(url)
    #正則表示式，從<loc>標籤中提取出URL，獲得網站地圖連結
    links=re.findall('<loc>(.*?)</loc>',sitemap) 
    #下載每個連結
    for link in links:
        html=download(link)
        #抓取的網站

2.ID遍歷爬蟲

（1）對ID進行遍歷，直到出現下載錯誤時停止。

缺陷：某些記錄可能已被刪除，資料庫ID之間並不是連續的。此時，只要訪問到某個間隔點，爬蟲就會立刻退出。

import itertools
for page in itertools.count(1):
    url='http://example.webscrapping.com/view/-%d' %page
    html=download(url)
    if html is None:
        break
    else:
        pass

（2）該版本中途連續發生多次下載錯誤後才會退出程式。

import itertools
#允許最大連續數量的下載的錯誤
max_errors=5
#目前連續下載錯誤的數量
num_errors=0
for page in itertools.count(1):
    url='http://example.webscrapping.com/view/-%d' %page
    html=download(url)
    if html is None:
        #在這個網頁上嘗試下載收到的錯誤資訊
        num_errors+=1
        if num_errors==max_errors:
            break
    else:
        #能夠成功爬取結果
        num_errors=0

3.連結爬蟲

使用正則表示式來確定需要下載哪些頁面。

（1）使用正則表示式確定需要下載的頁面。但是該連結只有網頁的路徑部分，沒有協議和伺服器部分，也就是這是一個相對連結，瀏覽器知道你在瀏覽哪個網頁，所以在瀏覽器瀏覽時，相對連結是能夠正常工作的。但是，urllib2是無法獲知上下文的。

import re
def link_crawl(seed_url,link_regex):
    crawl_queue=[seed_url]
    while crawl_queue:
        url=crawl_queue.pop()
        html=download(url)
        #匹配正則表示式
        for link in get_links(html):
            if re.match(link_regex,link):
                crawl_queue.append(link)
def get_links(html):
    webpage_regex=re.compile('<a[^>]+href=["\'](.*?)["\']',re.IGNORECASE)
    return webpage_regex.findall(html)

（2）儲存已發現URL的功能，避免重複爬取相同的連結

import re
import urlparse
def link_crawler(seed_url,link_regex):
    crawl_queue=[seed_url]
    #保持跟蹤哪個URL連結在之前被跟蹤過
    seen=set(crawl_queue)
    while crawl_queue:
        url=crawl_queue.pop()
        html=download(url)
        #匹配正則表示式
        for link in get_links(html):
            if re.match(link_regex,link):
                #絕對路徑
                link=urlparse.urljoin(seed_url,link)
                #檢查是否曾經看過這個連結
                if link not in seen:
                    seen.add(link)
                    crawl_queue.append(link)

python爬蟲讀書筆記（2）

1.網站地圖爬蟲 def crawl_sitemap(url): #下載網站地圖檔案 sitemap=download(url) #正則表示式，從<loc>標籤中提取出URL，獲得網站地圖連結 links=re.findall('<loc>

python爬蟲讀書筆記（1）

1.使用urllib2模組下載URL import urllib2 def download(url): return urllib2.urlopen(url).read() 2.捕獲異常出現下載錯誤時，該函式能夠捕獲異常，然後返回None。 import urllib2

Python 小技巧——讀書筆記（2）deque和heapq

在python中，提供了兩個資料結構給我們——deque和heapq。 collections.deque deque是佇列，可以通過設定佇列的長度從而實現查詢資料前N條記錄的功能（關於什麼是佇列我這邊就不多說了，不太清楚的讀者可以百度一下，簡單概括就是

UML精粹讀書筆記（2）

但是一個行動業務場景開發流程能力幫助流程中間現在大概是以一次看一章，每周看一章的速度來進行的，工作日自己太懶，沒有花時間去思考和行動。這次看的是第二章，開發過程。作者講了很多，但是基本都是以一個開發人員的視角來描述的。我很詫異的是，感覺很多國外開

《可愛的Python》讀書筆記（一）

可愛的Python 閏年素數質數 Just use it! don't learn!——只用，不學!無意間了解到《可愛的Python》就被它的名字所吸引。查了書評得知這本書是有爭議的，有人覺得書中很多都是點到為止不適合新手入門，處處給讀者挖坑，結構混亂更不能作為參考書。有人認為此書

《可愛的Python》讀書筆記（二）

walk this 尋找吧！不要先想著創造——Python 是自足的。繼續分析昨天的內容小白提出問題：如何讀取指定光驅"E:"中的文件列表信息？行者提出：文件是系統的事兒。分析：系統→操作系統→operating system→os模塊！>>> import os

《可愛的Python》讀書筆記（四）

grep 遞歸調用不斷否定自己，但要堅持最初的意願。小白已經實現了"將光盤內容索引存儲為硬盤上的*.cdc文本文件"，並獲得了命令行工具樣的程序，可以通過命令行調用python pycdc.pyw -e test.txt快速指定文件名。類似grep一樣，現在要實現搜索的功能，打開

《可愛的Python》讀書筆記（五）

重構 cmd 命令行界面不論戰術上如何變化，千萬不要忘記戰略。在前些時候小白已經使用getopt獲得命令行工具。但是，要完成一個個看似簡單，實際有 N 多情況的邏輯判定就有點煩人了。熱心的行者，又出聲了：“使用 cmd 吧！”cmd模塊，是一個專門支持命令行界面的模塊。讓我們來重構一下它：# -

《可愛的Python》讀書筆記（六）

mkdir沒有完美的軟件，夠用並且容易使用的軟件已經算是完美的了。今天整理這幾天的代碼# -*- coding: utf-8 -*- import os import sys import cmd from cdctools import * class PyCDC(cmd.Cmd): def

《可愛的Python》讀書筆記（七）

configparser ConfigParser 沒有最好，只有更合理!使用默認的列表打印格式來存儲和匯報實在不咋的，想著修改修改，於是：# -*- coding: utf-8 -*- import os def cdWalker(cdrom, cdcfile): export = &q

《可愛的Python》讀書筆記（八）

stack chardet 問題的最佳的解決方案，就是找到那段別人解決相似問題的代碼。今天做些能回顧所學知識點的小練習，類似的問題參考別人的代碼，修改成自己容易理解的模樣。1、實現簡單的棧。put(item)實現數據item插入棧中；get()實現從棧中取一個數據。# -*- coding: utf-

《可愛的Python》讀書筆記（九）

多線程 threading KISS 才是王道!KISS == Keep It Simple,Stupid不論什麽，堅持簡單的過程/原理/結構/代碼，就是自在！現在小白想使用多線程來提高查詢的速度，就用threading模塊了！# -*- coding: utf-8 -*- import os imp

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

Python爬蟲學習筆記（三）——正則表達式

斜杠這一 seh 爬蟲 class 學習常用方法部分介紹介紹正則表達式是一種處理字符串的強大工具，能實現字符串的檢索、替換、匹配驗證等。在爬蟲中，正則表達式主要用於從HTML裏提取所需要的信息常用的匹配規則模式描述 \w 匹配字母、數字及下劃

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

讀書筆記（2）

《沉默的藝術：意識科學基礎理論》第二部分 4.1 無時空量子觀測者的理論量子效應只是用於穩定某種內在自由度極大的基本粒子，然後再用基本粒子的內在屬性產生意識體驗。系統的屬性只能是系統與系統間的關係或配對1。物理屬性是指該系統與其他所有系統的關

程式碼大全讀書筆記（2）

前期準備 - 三思而後行 1. 前期準備的重要性準備工作的中心目標是降低風險儘可能早的將主要的風險清除掉，以使專案能平穩進行。軟體開發最常見的風險就是糟糕的需求分析和糟糕的專案計劃，因此準備工作就傾向於集中改進需求分析和羨慕計劃。準備不周全的誘因：專業程式元不

《沉默的藝術：意識科學基礎理論》讀書筆記（2）

第二部分 4.1 無時空量子觀測者的理論量子效應只是用於穩定某種內在自由度極大的基本粒子，然後再用基本粒子的內在屬性產生意識體驗。系統的屬性只能是系統與系統間的關係或配對1。物理屬性是指該系統與其他所有系統的關係的集合。內在屬性或現象屬性是指該系統

Python刷題筆記（2）- 取5位大數字

In the following 6 digit number: 283910 91 is the greatest sequence of 2 digits. Complete the solution so that it returns the largest five digit number fo

python爬蟲讀書筆記（2）

相關推薦