Python爬蟲(2)：溴事百科

阿新 • • 發佈：2018-10-31

首先說明一下,這份程式碼參考了汪海大大的部落格,然後自己重寫並且改動了一下而來。

首先對溴百的原始碼進行一下分析,發現只要關鍵的段子都是在`<div class="content">內容<span><\span>`這種模式下的,所以我們需要對爬蟲的內容進行正則表示式的運算即可。

另外我們需要跳過一些無謂的換行符號,這也是要注意的。

如果結果有問題,最簡單的辦法就是直接複製一段網頁原始碼用正則表示式來搜尋。

還有我們可以進行兩種方式的爬,第一種另開一個執行緒一直慢慢的爬,如果當前頁數足夠就不爬了,休息2s,否則就從當前頁數開始爬,注意爬的時候如果當前的頁數已經被爬過了,那麼就直接跳過即可。

其次如果使用者需要一個特殊的網頁page,比如突然跳到100頁,那麼就另開一個執行緒開始爬,並且將這個頁數的後幾頁也一起爬下來。這樣可以增加命中概率。

這個程式還有很多可以優化的地方,比如什麼時候刪除掉原來爬過的內容(避免內促不夠),對爬下來的內容進行一定處理使得可讀性更好之類的。

最後windows命令列自動預設是gbk解碼,所以可能在cmd上輸出會出錯,因此我們要先把cmd的預設編碼給改成utf-8,同時注意decode的時候注意加上ignore引數~。

import urllib.request as url_req
import urllib.parse as parse
import 
 urllib
import re
import threading
class spider_model():
    def __init__(self):
        self.page = 1
        self.pages = {}
        self.datapat = re.compile(r'<div class="content">\n*<span>(.*?)</span>',re.DOTALL)
        self.enable = False
        self.num = 3
    def scrapyPages 
(self,page):
        url = 'http://www.qiushibaike.com/hot/page/{}.format(page)'
        user_agent =  r''''Mozilla/5.0 (Windows NT 10.0; Win64; x64)
                              AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2504.0 Safari/537.36'''
        header  ={'User-Agent':user_agent}#'Origin':'http://my.csdn.net/my/mycsdn'}
        req = url_req.Request(url,headers=header)
        response = url_req.urlopen(req)
        #print(response.read().decode('utf-8'))
        content = response.read().decode('utf-8','ignore')
        text = self.datapat.findall(content)
        self.pages[page] = text
    # to load specific page
    def loadSpecificPage(self,objPage):
        for i in range(objPage,objPage+self.num):
            self.scrapyPages(i)
    # to load page in backend
    def loadPage(self):
        while self.enable:
            if len(pages) < 5:
                if self.page not in self.pages: 
                    scrapyPages()
                self.page += 1
            else:
                sleep(2)
    def start(self):
        self.enable = True
        pages = self.pages
        Backend = threading.Thread(target = self.loadPage,name='backend')

        while self.enable:
            page = int(input('input page you want to get'))
            if page =='quit':
                self.enable = False
                break
            if page not in pages:
                T = threading.Thread(target = self.loadSpecificPage,args = (page,),name = 'backend')
                T.start()
                T.join()

            text = pages[page]
            for line in text:
                print(line)

spider = spider_model()
spider.start()

Python爬蟲(2)：溴事百科

首先說明一下,這份程式碼參考了汪海大大的部落格,然後自己重寫並且改動了一下而來。首先對溴百的原始碼進行一下分析,發現只要關鍵的段子都是在<div class="content">內容<span><\span>這種模式下的,所以我們需要對爬蟲的內容

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

Python爬蟲爬取糗事百科(xpath+re)

爬取糗事百科，用xpath、re提取 =================================================== ===================================================== 1 ''' 2 爬取醜事百科，頁面

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。我們還會利用requests庫和BeauitfulSoup來爬取糗事百科上的段子, 並對比下單執行緒爬蟲和多執行緒爬蟲的爬取效率。什麼是

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

上次利用pyquery爬取貓眼電影TOP100榜單內容的爬蟲程式碼中點選開啟連結存在幾個不合理點。1. 第一個就是自定義的create_file（檔案存在判斷及建立）函式。我在後來的python檔案功能相關學習中，發現這個自定義函式屬於重複造輪子功能。因為 for data

Python爬蟲利器：BeautifulSoup庫

環境內容 python網絡 tag ret bsp 標準 requests for Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. Beautif

Python 爬蟲 2 （轉）

規範 return python 爬蟲直接 htm str 保存 urn find 一，獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

python 多線程糗事百科案例

wow64 案例 sts ascii starting 頁面 don 示意圖 utf-8 案例要求參考上一個糗事百科單進程案例 Queue（隊列對象） Queue是python中的標準庫，可以直接import Queue引用;隊列是線程間最常用的交換數據的形式 python

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

Python爬蟲利器：Beautiful Soup

處理 previous tag 得到 navi log 簡單文本節點 pen Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫。使用它來處理HTML頁面就像JavaScript代碼操作HTML DOM樹一樣方便。官方中文文檔地址 1

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

Python爬蟲系列：判斷目標網頁編碼的幾種方法

qpi data- tps 分享運行 ofo html nbsp 來看在爬取網頁內容時，了解目標網站所用編碼是非常重要的，本文介紹幾種常用的方法，並使用幾個網站進行簡單測試。代碼運行結果：從不同國家的幾個網站測試結果來看，utf8使用的較多（對於純英文網站，用什

Python爬蟲2------爬蟲屏蔽手段之代理服務器實戰

地址 eight pan urlopen 字典 3.1 第一個函數參數 div 1、代理服務器：一個處於客戶端與互聯網中間的服務器，如果使用代理服務器，當我們瀏覽信息的時候，先向代理服務器發出請求，然後由代理服務器向互聯網獲取信息，再返回給我們。 2、代碼

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

python爬蟲學習：第一爬_快眼看書排行榜

font n) 對象 file 叠代器 get quest client 有一個 1 import json 2 import re 3 from urllib.request import urlopen # urllib用法：https://www.jb5

python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻

start mongodb efi 本地 rtp 公司 loader 右鍵 more 近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

[Python] [爬蟲] 2.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——驗證模組

目錄 1.Intro 2.Source 1.Intro 檔名：authentication.py 模組名：驗證模組引用庫： urllib2 requests pymongo socket

Python爬蟲(2)：溴事百科

首先說明一下,這份程式碼參考了汪海大大的部落格,然後自己重寫並且改動了一下而來。

首先對溴百的原始碼進行一下分析,發現只要關鍵的段子都是在<div class="content">內容<span><\span>這種模式下的,所以我們需要對爬蟲的內容進行正則表示式的運算即可。

另外我們需要跳過一些無謂的換行符號,這也是要注意的。

如果結果有問題,最簡單的辦法就是直接複製一段網頁原始碼用正則表示式來搜尋。

還有我們可以進行兩種方式的爬,第一種另開一個執行緒一直慢慢的爬,如果當前頁數足夠就不爬了,休息2s,否則就從當前頁數開始爬,注意爬的時候如果當前的頁數已經被爬過了,那麼就直接跳過即可。

其次如果使用者需要一個特殊的網頁page,比如突然跳到100頁,那麼就另開一個執行緒開始爬,並且將這個頁數的後幾頁也一起爬下來。這樣可以增加命中概率。

這個程式還有很多可以優化的地方,比如什麼時候刪除掉原來爬過的內容(避免內促不夠),對爬下來的內容進行一定處理使得可讀性更好之類的。

最後windows命令列自動預設是gbk解碼,所以可能在cmd上輸出會出錯,因此我們要先把cmd的預設編碼給改成utf-8,同時注意decode的時候注意加上ignore引數~。

相關推薦

首先對溴百的原始碼進行一下分析,發現只要關鍵的段子都是在`<div class="content">內容<span><\span>`這種模式下的,所以我們需要對爬蟲的內容進行正則表示式的運算即可。