【實戰】scrapy 爬取果殼問答！

阿新 • • 發佈：2018-12-19

引言

學爬蟲的同學都知道，Scrapy是一個非常好用的框架，可以大大的簡化我們編寫程式碼的工作量。今天我們就從使用Scrapy爬取果殼問答。

需求分析

爬取果殼問答中精彩回答的標題和答案。

知識點

爬取資料：Scrapy

資料庫：Mongo

建立專案和爬蟲

建立專案：

scrapy的建立專案命令為startproject，這裡我們使用這個命令建立一個果殼的專案。

建立完專案之後，進入專案資料夾建立爬蟲。建立爬蟲的命令為genspider。這裡我們使用crawl模板來建立spider。

部分程式碼

建立完成專案和爬蟲後，我們使用IDE開啟專案。首先修改settings檔案。將ROBOTSTXT_OBEY設定成False，將User-Agent的註釋開啟並根據自身使用的瀏覽器進行設定。將DOWNLOAD_DELAY設定為1.（這裡是下載延時，為了防止被封IP，這裡設定延時1秒，可以根據實際情況調整）

Items檔案：在Items檔案中，我們建立三個屬性，分別是question、answer和_id。其中_id是用來存入mongoDB中使用。

class GuokrItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    question = scrapy.Field()
    answer = scrapy.Field()
    _id = scrapy.Field()

Spider檔案：在Spider檔案中，我們需要補齊兩個rule，第一個規則是從列表中篩選出其他列表頁面的url，第二個規則是從列表中篩選出問題的詳細地址。

在parse_item中實現資訊的提取，這裡我們使用css選擇器來提取想要的內容，提取完成之後，將item返回。

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from Guokr.items import GuokrItem

class GuokrSpider(CrawlSpider):
    name = 'guokr'
    allowed_domains = ['guokr.com']
    start_urls = ['https://www.guokr.com/ask/highlight/?page=1']

    rules = (
        Rule(LinkExtractor(allow=r'page='), follow=True),
        Rule(LinkExtractor(allow=r'question'), callback='parse_item', follow=False),
    )

    def parse_item(self, response):
        item = GuokrItem()
        item['answer'] = response.css(".answer-txt p::text").extract()
        item['question'] = response.css("#articleTitle::text").extract_first()
        yield item

Pipelines檔案：在pipelines檔案中我們需要實現內容的儲存，這裡提供了兩個方式，一種是寫到本地txt檔案，一種是寫到mongoDB中。

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy.exporters import JsonItemExporter
import pymongo

class GuokrPipeline(object):
    def open_spider(self,spider):
        self.file = open('guokr.txt','wb')
        self.exporter = JsonItemExporter(self.file)
        self.exporter.start_exporting()

        self.con = pymongo.MongoClient()
        self.database = self.con['guokr']
        self.conllection = self.database['guokr']

    def process_item(self, item, spider):
        self.exporter.export_item(item)

        self.conllection.insert_one(item)

    def close_spider(self,spider):
        self.exporter.finish_exporting()
        self.file.close()

        self.con.close()

最後我們需要在settings檔案中開啟pipelines。（此步略）

部分結果：

至此，我們使用了很少的程式碼就完成了對果殼問答的爬取。

原始碼

連結：連結：https://pan.baidu.com/s/1MRnkfKIAvsxECMRqygdfCA 提取碼提取碼：ls65

【實戰】scrapy 爬取果殼問答！

引言學爬蟲的同學都知道，Scrapy是一個非常好用的框架，可以大大的簡化我們編寫程式碼的工作量。今天我們就從使用Scrapy爬取果殼問答。需求分析爬取果殼問答中精彩回答的標題和答案。知識點爬取資料：Scrapy 資料庫：Mongo 建立專案

【爬蟲】Scrapy 爬取excel中500個網址首頁，使用Selenium模仿使用者瀏覽器訪問，將網頁title、url、文字內容組成的item儲存至json檔案

建立含有網址首頁的excel檔案 host_tag_網站名稱_主域名_子域名.xlsx 編輯讀取excel檔案的工具類專案FileUtils 新建專案FileUtils 編輯file_utils.py # -*- coding: utf-8 -*- """

【實戰】scrapy-redis + webdriver 爬取航空網站

引言今天給大家帶來的是scrapy-redis + webdriver實戰案例。在爬蟲編寫過程中，我們經常會遇到以下的情況，想要用scrapy框架，但是因為網站的原因，還想要用webdriver，那麼要如何實現scrapy + webdriver呢？其實很簡單，大家都知道，在scrapy中，我

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

還在人工爬資料？不用定期敲爬蟲，也能【自動化】訊息爬取的祕訣（內附Python程式碼）

RSS服務Python實做一、安裝我們可以透過Python的套件包：「feedparser 」。讓我們可以輕易的透過Python解析 RSS。Windows 安裝，開啟Command Line：pip install feedparserUbuntu安裝，開啟Terminal：sudo pip insta

python爬蟲學習筆記分析Ajax爬取果殼網文章

有時在使用requests抓取頁面會遇到得到的結果與在瀏覽器中看到的結果不一樣，在瀏覽器檢查元素中可以看到的正常的顯示的網頁資料，但是requests請求得到的結果卻沒有。這是因為requests請求得到的時原始的html文件，而瀏覽器中的介面確實經過JavaScript處理資料生成的結果

【Python】BeautifulSoup爬取新聞內容

本篇博文是爬取網站新聞的簡單例子，如果要深入瞭解爬蟲，請移步，不要因為這篇博文耽誤你寶貴時間。網站原始碼如下，我們目標是爬取<p>標籤下的新聞內容：程式碼如下：from urllib.request import urlopen from bs4 import B

【python】爬蟲爬取美麗小姐姐圖片美女桌布

爬蟲爬取蜂鳥裡的高清桌布　　想要自動下載某個網站的高清桌布，不能一個個點選下載，所以用爬蟲實現自動下載。改程式碼只針對特定網站，不同網站需要特別分析。一、分析網站　　https://photo.fengniao.com/ 　　隨便點選一張，發現可以上一頁，下一頁的翻頁

scrapy爬取知乎問答

登陸參考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time import re import base64 import hmac import hashlib impor

【實戰】還記得校內網麼(人人網)？當年的同學都在哪？爬取一下就知道

引言不知從何時起，10.24變成了程式設計師的節日，首先祝大家節日快樂！程式碼永無bug！小編最近突然有點懷舊，想到了一個古老的網站——校內網（人人網），在小編還在讀大學的那個時間，校內網真的是火的一塌糊塗，那時候的同學每天都在不停的刷校內，找同學，釋出新鮮事。然而世事

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

scrapy 爬取資料遞歸回掉出錯錯誤日誌【Filtered offsite request to】

爬取zol 網站圖片,無法抓取. 在 setting.py 檔案中設定日誌記錄等級 LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt' 檢視日誌發現報 2015-11-07 14:43:43+0800 [meizitu] DEBUG: Fi

【實戰】卡車之家——動態載入內容的爬取方法

引言現在大多數網站都採用了動態載入方式來展現其內容，本篇文章我們就來演示如何抓取動態載入的網站內容。需求分析爬取卡車之家新聞頻道所有新聞內容。（http://www.360che.com/news/）網站分析首先，我們開啟目標網頁，可

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

【Python3 爬蟲】14_爬取淘寶上的手機圖片

head 並且淘寶網 pan coff urllib images 圖片列表 pic 現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？首先，我們需要分析網頁，先看看網頁有哪些規律打開淘寶網站http://www.taobao.com/

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

我爬取了30頁拉勾上安卓的招聘資料告訴你安卓崗位究竟要一個什麼樣的人我知道沒圖你們是不會看的如圖：以上是抓取了30頁拉勾上關於招聘安卓相關的內容然後根據詞頻製作出詞雲圖出現最多的詞是開發經驗整體流程總共分為2步 1.爬蟲爬取相關的招聘資訊 2.根

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

一、需求分析模擬登陸新浪微博,爬取新浪微博的熱門話題版塊的24小時內的前TOP500的話題名稱、該話題的閱讀數、討論數、粉絲數、話題主持人，以及對應話題主持人的關注數、粉絲數和微博數。二、開發語言 python2.7 三、需要匯入模組 import

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才，崔大神的部落格，試著嘗試一下爬取一個網站的全部內容，福利吧網站現在已經找不到了，然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站，女人都喜歡車，更何況男人呢。（

【Python實戰】Scrapy豌豆莢應用市場爬蟲

對於給定的大量APP，如何爬取與之對應的（應用市場）分類、描述的資訊？且看下面分解。 1. 頁面分析當我們在豌豆莢首頁搜尋框輸入微信後，會跳轉到搜尋結果的頁面，其url為http://www.wandoujia.com/search?key=%微信。搜尋結果一般是按相關性排序的；所以，我們認為第一條搜尋結果

【實戰】scrapy 爬取果殼問答！

相關推薦