scrapy爬蟲系列之四--爬取列表和詳情

阿新 • • 發佈：2019-03-29

ont str extra utf-8 book line col turn detail

功能點：如何爬取列表頁，並根據列表頁獲取詳情頁信息？

爬取網站：東莞陽光政務網

完整代碼：https://files.cnblogs.com/files/bookwed/yangguang.zip

主要代碼：

yg.py

import scrapy
from yangguang.items import YangguangItem


class YgSpider(scrapy.Spider):
    name = ‘yg‘
    allowed_domains = [‘sun0769.com‘]
    start_urls = [‘http://wz.sun0769.com/index.php/question/report 
‘]

    def parse(self, response):
        tr_list = response.xpath("//div[@class=‘greyframe‘]/table[2]//tr")
        for tr in tr_list:
            item = YangguangItem()
            item["title"] = tr.xpath("./td[2]/a[2]/text()").extract_first()
            item["href"] = tr.xpath("./td[2]/a[2]/@href" 
).extract_first()
            item["status"] = tr.xpath("./td[3]/span/text()").extract_first()
            item["publish_time"] = tr.xpath("./td[last()]/text()").extract_first()
            if type(item["href"]) == str:
                # 請求詳情頁
                yield scrapy.Request(
                    item[ 
"href"],
                    callback=self.parse_detail,
                    meta={"item": item}
                )

        # 翻頁
        next_url = response.xpath("//a[text()=‘>‘]/@href").extract_first()
        if next_url is not None:
            yield scrapy.Request(next_url, callback=self.parse)

    # 解析詳情頁
    def parse_detail(self, response):
        item = response.meta["item"]
        # 獲取詳情頁的內容、圖片
        item["content"] = response.xpath("//div[@class=‘wzy1‘]/table[2]//tr[1]/td[@class=‘txt16_3‘]/text()").extract()
        item["content_image"] = response.xpath("//div[@class=‘wzy1‘]/table[2]//tr[1]/td[@class=‘txt16_3‘]//img/@src").extract()
        item["content_image"] = ["http://wz.sun0769.com"+i for i in item["content_image"]]
        yield item  # 對返回的數據進行處理

pipelines.py

class YangguangPipeline(object):
    def __init__(self):
        self.f = open(‘yangguang.json‘, ‘w‘, encoding=‘utf-8‘)

    def process_item(self, item, spider):
        item["content"] = self.process_content(item["content"])
        self.f.write(json.dumps(dict(item), ensure_ascii=False) + ‘,\n‘)
        return item

    def process_content(self, content):
        # 對內容項裏的\xa0 和 空白字符替換為空
        content = [re.sub(r"\xa0|\s", "", i) for i in content]
        # 對替換過的空字符串去除
        content = [i for i in content if len(i) > 0]
        return content

scrapy爬蟲系列之四--爬取列表和詳情

ont str extra utf-8 book line col turn detail 功能點：如何爬取列表頁，並根據列表頁獲取詳情頁信息？爬取網站：東莞陽光政務網完整代碼：https://files.cnblogs.com/files/bookwed/yang

scrapy爬蟲系列之三--爬取圖片保存到本地及日誌的基本用法

用法 request 讀取配置 turn 重寫方法沒有 elf sel jpg 功能點：如何爬取圖片，並保存到本地爬取網站：鬥魚主播完整代碼：https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代碼： dou

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

pyhton爬蟲筆記之實戰爬取淘寶商品價格和名稱

# -*- coding: utf-8 -*- """ Created on Wed Nov 8 18:55:18 2017 @author: xuanxuan """ # -*- codin

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

爬蟲練習之迴圈爬取網頁中全部連結(requsets同步)

驗證輸入的url是否可正常連線,無法連線提示使用者再次輸入,正常連線則返回url本身 def url_get(): url = input("請輸入要爬取的首頁url:") try

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔

scrapy爬蟲系列之五--CrawlSpider的使用

actor time col 操作 rule lsp -c cal link 功能點：CrawlSpider的基本使用爬取網站：保監會主要代碼： cf.py # -*- coding: utf-8 -*- import scrapy from scrap

設計模式系列之四_策略模式和模版方法模式(Template method)

1.策略模式 1.1 策略模式策略模式定義了一系列的演算法，並將每一個演算法封裝起來，而且使它們還可以相互替換。策略模式讓演算法獨立於使用它的客戶而獨立變化。策略模式屬於物件的行為模式。其用意是針對一組演算法，將每一個演算法封裝到具有共同介面的獨立的類中，

爬蟲系列之鏈家的信息爬取及數據分析

enc lib art andro 函數 strip 一次 read 訪問關於鏈家的數據爬取和分析已經實現 1.房屋數據爬取並下載 2.房屋按區域分析 3.房屋按經紀人分析 4.前十經紀人 5.經紀人最有可能的位置分析 6.實現以地區劃分房屋目前存在

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

Python爬蟲系列之郵編區號爬取

Python爬蟲之<—>全國郵編區號爬取僅供交流探討歡迎提出改進程式碼部分 import re import requests import time import MySQLdb ''' @author:王磊 @time :201

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

scrapy爬蟲系列之四--爬取列表和詳情

相關推薦