爬取伯樂線上文章（三）爬取所有頁面的文章

阿新 • • 發佈：2018-11-05

之前只是爬取某一篇文章的內容，但是如何爬取所有文章

修改start_urls = ['http://blog.jobbole.com/all-posts/']

重新啟動scrapy的shell

parse函式需要做兩件事

1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解析
2. 獲取下一頁的URL並交給scrapy進行下載，下載完成後交給parse

獲取列表頁中的所有文章URL

post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()

獲取所有URL之後將其交給scrapy進行下載並解析，如何交給scrapy進行下載，下載完成之後呼叫我們自己定義的解析函式，這就需要用到scrapy的另一類Request，在scrapy.http裡面

    def parse(self, response):
        '''
        1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解析
        2. 獲取下一頁的URL並交給scrapy進行下載，下載完成後交給parse
        '''

        #  解析列表頁中的所有文章的URL並交給scrapy下載後並解析 

        post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
        for post_url in post_urls:
            Request(url=post_url, callback=self.parse_detail)
            print(post_url)
            pass

    def parse_detail(self,response):
         
#提取文章的具體邏輯
        title = response.xpath('//*[@id="post-110287"]/div[1]/h1/text()').extract()[0]
        date = response.xpath('//*[@id="post-110287"]/div[2]/p/text()').extract()[0].strip().replace("·", "")
        praise_num = response.xpath('//*[@id="110287votetotal"]/text()').extract()[0]
        collect_num = response.xpath('//*[@id="post-110287"]/div[3]/div[9]/span[2]/text()').extract()[0].split(" ")[1]
        comment_num = response.xpath('//*[@id="post-110287"]/div[3]/div[9]/a/span/text()').extract()[0].split(" ")[1]

        pass

可能有些網站獲取的URL裡面只有/114466/，這是就需要當前的URL和獲取的URL進行一個拼接從而形成完整的URL，這就需要用到urllib中的parse函式，將Request交給scrapy進行下載使用yield關鍵字

    def parse(self, response):
        '''
        1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解析
        2. 獲取下一頁的URL並交給scrapy進行下載，下載完成後交給parse
        '''

        #  解析列表頁中的所有文章的URL並交給scrapy下載後並解析
        post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
        for post_url in post_urls:
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

還需要提取下一頁並交給scrapy進行下載

    def parse(self, response):
        '''
        1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解析
        2. 獲取下一頁的URL並交給scrapy進行下載，下載完成後交給parse
        '''

        #  解析列表頁中的所有文章的URL並交給scrapy下載後並解析
        post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
        for post_url in post_urls:
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

        #  提取下一頁並交給scrapy進行下載
        next_url = response.css('.next.page-numbers::attr(href)').extract_first()
        if next_url:
            yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

所有程式碼如下

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.http import Request
from urllib import parse


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    #允許的域名
    allowed_domains = ['blog.jobbole.com']
    #起始的url
    start_urls = ['http://blog.jobbole.com/all-posts/']

    #業務邏輯
    def parse(self, response):
        '''
        1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解析
        2. 獲取下一頁的URL並交給scrapy進行下載，下載完成後交給parse
        '''

        #  解析列表頁中的所有文章的URL並交給scrapy下載後並解析
        post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
        for post_url in post_urls:
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

        #  提取下一頁並交給scrapy進行下載
        next_url = response.css('.next.page-numbers::attr(href)').extract_first()
        if next_url:
            yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)


    def parse_detail(self,response):
        print("目前爬取的URL是："+response.url)
        #提取文章的具體邏輯

        #  獲取文章標題
        title = response.css('.entry-header h1::text').extract()[0]
        #  獲取釋出日期
        date = response.css('.entry-meta .entry-meta-hide-on-mobile::text').extract()[0].strip().replace("·", "")
        #  獲取點贊數
        praise_num = response.css('.vote-post-up h10::text').extract()[0]
        #  獲取收藏數
        collect_num = response.css('.post-adds .bookmark-btn::text').extract()[0].split(" ")[1]
        collect_match_re = re.match(r'.*?(\d+).*', collect_num)
        if collect_match_re:
            collect_num = int(collect_match_re.group(1))
        else:
            collect_num = 0
        #  獲取評論數
        comment_num = response.css('.post-adds .hide-on-480::text').extract()[0]
        comment_match_re = re.match(r'.*?(\d+).*', comment_num)
        if comment_match_re:
            comment_num = int(comment_match_re.group(1))
        else:
            comment_num = 0

        content = response.css('div.entry').extract()[0]


        print(title+"\t"+"釋出時間："+date+"\t"+str(praise_num)+"點贊"+"\t"+str(collect_num)+"收藏"+"\t"+str(comment_num)+"評論")
        #date = response.xpath('//*[@id="post-110287"]/div[2]/p/text()').extract()[0].strip().replace("·", "")
        #praise_num = response.xpath('//*[@id="110287votetotal"]/text()').extract()[0]
        #collect_num = response.xpath('//*[@id="post-110287"]/div[3]/div[9]/span[2]/text()').extract()[0].split(" ")[1]
        #comment_num = response.xpath('//*[@id="post-110287"]/div[3]/div[9]/a/span/text()').extract()[0].split(" ")[1]

View Code

爬取伯樂線上文章（三）爬取所有頁面的文章

之前只是爬取某一篇文章的內容，但是如何爬取所有文章修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新啟動scrapy的shell parse函式需要做兩件事 1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解

部落格搬家系列（三）-爬取部落格園部落格

部落格搬家系列（三）-爬取部落格園部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https://bl

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

Python3+Fiddler爬取手機端APP（三） ————使用Appium在真機模擬爬取

最終：例子：爬取天眼查： 1.手機開啟開發者模式，允許USB除錯 2.cmd輸入adb 3.下載apk 4.開啟appium，拖入apk，並填上裝置名 5.寫對應python程式 import selenium import time from ap

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

Scrapy-Splash爬取淘寶排行榜（三）

五寫spider 1.知道了要爬取的內容，所以，我們首先在start_urls中設定如下： start_urls=['https://top.taobao.com/index.php?topId=TR_FS&leafId=50010850'

Python3 爬蟲（三） -- 爬取豆瓣首頁圖片

序前面已經完成了簡單網頁以及偽裝瀏覽器的學習。下面，實現對豆瓣首頁所有圖片爬取程式，把圖片儲存到本地一個路徑下。首先，豆瓣首頁部分圖片展示這只是擷取的一部分。下面給出，整個爬蟲程式。爬蟲程式

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

python爬蟲（三）爬取網易雲音樂歌曲列表

1.開啟網易雲音樂列表，按F12，選擇Doc模式，方便檢視。2.檢視網頁的請求方式--get請求3.檢視header4. 在Preview中搜索任意一首歌曲，比如：無由可以看到，歌曲列表在‘ul’標籤中，那麼我們可以通過Be阿UtigulSoup去搜索明晰了結構，就可以寫程式

一篇SSM框架整合友好的文章（三）

###一.SpringMVC理論它始終是圍繞 handler、資料模型 model、頁面view進行開發的。執行流程圖：通過mvc配置檔案，配置“中央處理器”dispatchservlet，當用戶請求一個url，dispatchservlet通過handlerMap

Git 系列文章（三）—— 分支

正文之前上一篇文章中講述了 Git 的基本操作，這一篇文章著重講其中的分支相關的操作正文在 GitHub 的倉庫中，展現給世人的倉庫內容都是 master 主分支的，在團隊成員對倉庫進行改動時，需要將此倉庫 fork 至自己的賬戶中，並建立分支，在自己

Git系列文章（三）：本地新建專案提交至遠端倉庫

------新建專案後，選中專案資料夾右鍵git Bash Here ------使用git init ------使用git status ------使用git add . ------使用git commit -m "新增檔案" ------使用gi

小程式線上支付（三）

小編推薦：Fundebug專注於JavaScript、微信小程式、微信小遊戲，Node.js和Java實時BUG監控。真的是一個很好用的bug監控費服務，眾多大佬公司都在使用。通過前面兩節，我們把小程式支付的基本工作給完成了，現在我們如何在前端呼叫我們的介面呢，今天本章就是跟大家

Kaldi系列--Ubuntu中TIMIT線上識別（三）

上一篇我們講解了TIMIT的訓練步驟，現在利用訓練好的模型，進行線上語音識別。在kaldi 的工具集裡有好幾個程式可以用於線上識別。這些程式都位在src/onlinebin資料夾裡，他們是由src/online資料夾裡的檔案編譯而成(你現在可以用make ext 命令進行編譯

git的版本管理使用（三）-拉取分支程式碼

git系列文章參考文章 *之前2篇是在github上操作的git版本管理，這篇是在開源中國·碼雲上面的git版本管理。使用下來都差不多，暫時沒有發現不一樣的內容。關於分支內程式碼的拉取的問題：問題詳述：看下圖，我們一般都是

【NLP】揭祕馬爾可夫模型神祕面紗系列文章（三）

作者：白寧超 2016年7月11日22:54:57 摘要：最早接觸馬爾可夫模型的定義源於吳軍先生《數學之美》一書，起初覺得深奧難懂且無什麼用場。直到學習自然語言處理時，才真正使用到隱馬爾可夫模型，並體會到此模型的妙用之處。馬爾可夫模型在處理序列分類時具體強大的功能，諸如解決：詞類標註、語音識別、句

【NLP】驀然回首：談談學習模型的評估系列文章（三）

作者：白寧超 2016年7月19日19:04:51 摘要：寫本文的初衷源於基於HMM模型序列標註的一個實驗，實驗完成之後，迫切想知道採用的序列標註模型的好壞，有哪些指標可以度量。於是，就產生了對這一專題進度學習總結，這樣也便於其他人蔘考，節約大家的時間。本文依舊旨在簡明扼要梳理出模型評估核心指標，

Django開發部落格（三）——在新的頁面展示文章

背景之前的文章寫了如何用模版快速改成自己的部落格，但是那只有首頁，其他頁面並沒有做出來。現在需要實現的功能為：在首頁點選一篇文章的標題，能夠在新的頁面展示文章的所有內容。版本相關作業系統：Mac OS X EI Caption Python版

TiKV 原始碼解析系列文章（三）Prometheus（上）

開發十年，就只剩下這套架構體系了！ >>>

JavaScript 系列--JavaScript一些奇淫技巧的實現方法（三）數字取整，陣列求和

一、前言簡短的sleep函式，獲取時間戳：https://www.mwcxs.top/page/746.html 數字格式化 1234567890 --> 1,234,567,890；argruments 物件(類陣列)轉換成陣列： https://www.mwcxs.top/page/749.

爬取伯樂線上文章（三）爬取所有頁面的文章

相關推薦