scrapy案例:爬取翼蜂網絡新聞列表和詳情頁面

阿新 • • 發佈：2018-05-26

model rap name lB htm nod meta http AR

# -*- coding: utf-8 -*-
import scrapy
from Demo.items import DemoItem


class AbcSpider(scrapy.Spider):
    name = ‘abcd‘
    allowed_domains = [‘www.cnyifeng.net‘]
    # start_urls = [‘http://abc.com/‘]

    # 拼接url
    baseURL = "http://www.cnyifeng.net/news/1/{}.html"

    offset = 1

    start_urls = [baseURL.format(offset)]

     
def parse(self,response):

        node_list = response.xpath("//div[@class=‘news_con‘]/dl[@class=‘news_dl‘]")

        for node in node_list:

            item = DemoItem()

            if len(node.xpath(".//a[@class=‘dt_1‘]//text()")):

                item[‘title‘] = node.xpath(".//a[@class=‘dt_1‘]//text()" 
).extract()[0]

            else:

                item[‘title‘] = ‘‘

            if len(node.xpath("./dd//text()")):

                item[‘zhaiyao‘] = node.xpath("./dd//text()").extract()[0]
            else:
                item[‘zhaiyao‘] = ‘‘

            item[‘times‘] = node.xpath(".//span//text()").extract()[0]

            mainUrl  
= ‘http://www.cnyifeng.net‘

            erUrl = mainUrl + node.xpath(".//a[@class=‘dt_1‘]/@href").extract()[0]

            yield scrapy.Request(erUrl,callback=self.parse_detail_info,meta=item) # 把item傳遞給詳情頁的方法中

        if len(response.xpath("//div[@class=‘flickr‘]//span[@class=‘disabled‘]")) == 0:
            url = response.xpath("//div[@class=‘flickr‘]/a[last()]/@href").extract()[0]
            yield scrapy.Request("http://www.cnyifeng.net" + url, callback=self.parse)
        else:
            ToNext = response.xpath("//div[@class=‘flickr‘]//span[@class=‘disabled‘]//text()").extract()[0].encode(‘utf-8‘)
            if str(ToNext != ‘下一頁?‘):
                url = response.xpath("//div[@class=‘flickr‘]/a[last()]/@href").extract()[0]
                yield scrapy.Request("http://www.cnyifeng.net" + url, callback=self.parse)




    def parse_detail_info(self,response):

        item = response.meta #接收列表頁的模型

        item[‘viewcount‘] = ‘90‘

        if len(response.xpath("//div[@id=‘left‘]/div[@class=‘content_arc‘]/span/text()")):

            content_list = response.xpath("//div[@id=‘left‘]/div[@class=‘content_arc‘]/span/text()").extract()

            content_str =‘‘

            for model in content_list:

                content_str = content_str + str(model).strip()

            item[‘content‘] = content_str

            yield item

model rap name lB htm nod meta http AR # -*- coding: utf-8 -*- import scrapy from Demo.items import DemoItem class AbcSpider(scrapy.Sp

我的第一個Scrapy 程序 - 爬取當當網信息

ref http ide ces passwd lds url ext != 前面已經安裝了Scrapy，下面來實現第一個測試程序。概述 Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

python爬蟲(16)使用scrapy框架爬取頂點小說網

本文以scrapy 框架來爬取整個頂點小說網的小說 1.scrapy的安裝這個安裝教程，網上有很多的例子，這裡就不在贅述了 2.關於scrapy scrapy框架是一個非常好的東西，能夠實現非同步爬取，節省時間，其實本文純粹的按照之前的思維來做，也不是不可以，但是感

Python爬蟲【實戰篇】scrapy 框架爬取某招聘網存入mongodb

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構 items.py title = scrapy.Field()

Python爬取亞馬遜商品列表-xpath(詳情頁爬取待更新...)

一.分析頁面結構先行爬取首頁內容的兩個欄位，一個是商品名稱title以及價格price；二.分析頁面的請求：首先按照PC端的url進行請求，結果未得到返回響應的response的資料，於是通過chrom瀏覽器切換至手機端的來獲取響應：觀察到其url

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

運用scrapy爬取鏈家網房價並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。

Python的scrapy之爬取6毛小說網

閒來無事想看個小說，打算下載到電腦上看，找了半天，沒找到可以下載的網站，於是就想自己爬取一下小說內容並儲存到本地聖墟第一章沙漠中的彼岸花 - 辰東 - 6毛小說網 http://www.6mao.com/html/40/40184/12601161.html 這是要爬取的網

scrapy爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。xiaohuawang/items.py: 專

網路爬蟲-使用Scrapy爬取千圖網素材

話說好久好久好久沒寫過scrapy的demo了，已經快忘得差不多了，今天一個小老弟讓我幫他看看怎麼大量快速爬取千圖網的素材，我進網站看了看，一是沒有什麼反爬措施，二是沒有封ip的限制，那這種情況，鐵定用scrapy這個非同步框架最舒服了，於是花了十幾分鍾看了看自

Python的scrapy之爬取6毛小說網的聖墟

閒來無事想看個小說，打算下載到電腦上看，找了半天，沒找到可以下載的網站，於是就想自己爬取一下小說內容並儲存到本地聖墟第一章沙漠中的彼岸花 - 辰東 - 6毛小說網 http://www.6mao.com/html/40/40184/12601161.html 這是要爬取的網頁觀察結構下一章然

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

scrapy案例:爬取翼蜂網絡新聞列表和詳情頁面

相關推薦