scrapy抓取某些樣式的博客園博客信息

阿新 • • 發佈：2018-09-24

mongo from split yield 標簽 col chrome fin afa

測試過很多樣式的博客園，就發現長書這樣的也就是我的博客這樣的抓取不了，標簽不一樣。其他的只需要把bky.py下的user的值即‘username’改為要抓取的用戶的用戶名即可，如：

user = "whz0215"。

代碼如下：

spiders下的bky.py

import scrapy
from scrapy import Request,Selector
import re
from bokeyuan.items import *

class BkySpider(scrapy.Spider):
    user = "username"
    name = ‘bky‘
    allowed_domains = [‘cnblogs.com‘]
    start_urls = [‘https://cnblogs.com/‘]
    cur_page = 1
    url = "https://www.cnblogs.com/%s/default.html?page=%s"

    def start_requests(self):
        url = self.url%(self.user,self.cur_page)
        yield Request(url,callback=self.parse)

    def parse(self, response):
        selector = Selector(text=response.text)
        one_page = selector.xpath(‘//div[@class="forFlow"]/div[@class="day"]‘)
        for each in one_page:
            title = each.xpath(‘div[@class="postTitle"]/a[@class="postTitle2"]/text()‘).extract_first()
            sec_title = each.xpath(‘div[@class="postCon"]/div[@class="c_b_p_desc"]/text()‘).extract_first()
            detail_url = each.xpath(‘div[@class="postTitle"]/a/@href‘).extract_first()
            desc = each.xpath(‘div[@class="postDesc"]/text()‘).extract_first()
            if desc:
                split_desc = desc.strip().split()
                post_time = split_desc[2] + " " + split_desc[3]
                postor = split_desc[4]
                read = re.search(r"(\d+)",split_desc[5]).group(1)
                conment = re.search((r"(\d+)"),split_desc[6]).group(1)
                # print(title,sec_title,post_time,postor,read,conment,detail_url)
                item = BokeyuanItem()
                item["title"] = title
                item["sec_title"] = sec_title
                item["post_time"] = post_time
                item["postor"] = postor
                item["read"] = read
                item["comment"] = conment
                item["detail_url"] = detail_url
                yield item
        if self.cur_page > 1:
            if_next = selector.xpath(‘//div[@class="pager"]/a[last()]‘).extract_first()
            if re.search(r‘(\d+)‘,if_next).group(1) == None:
                exit(0)
        self.cur_page += 1
        yield Request(url=self.url%(self.user,self.cur_page),callback=self.parse)

pipelines.py

class BokeyuanPipeline(object):
    def process_item(self, item, spider):
        return item

import pymongo

class MongoPipeline(object):

    collection_name = ‘whz‘

    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get(‘MONGO_URI‘),
            mongo_db=crawler.settings.get(‘MONGO_DATAEASE‘,‘bky‘),
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        if len(item["sec_title"]) > 50:
            item["sec_title"] = item["sec_title"][:50] + "..."
        self.db[self.collection_name].insert_one(dict(item))
        return item

items.py

import scrapy
from scrapy import Item, Field

class BokeyuanItem(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # title, sec_title, post_time, postor, read, conment, detail_url
    title = Field()
    sec_title = Field()
    post_time = Field()
    postor = Field()
    read = Field()
    comment = Field()
    detail_url = Field()

settings.py

修改為
ROBOTSTXT_OBEY = False

註釋解開並添加
DEFAULT_REQUEST_HEADERS = {
  ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
  ‘Accept-Language‘: ‘en‘,
  ‘Referer‘: ‘https://www.cnblogs.com‘,
  ‘USER_AGENT‘: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘
}

ITEM_PIPELINES = {
   ‘bokeyuan.pipelines.BokeyuanPipeline‘: 300,
   ‘bokeyuan.pipelines.MongoPipeline‘: 301,
}

添加
MONGO_URL = ‘localhost‘
MONGO_DATABASE = ‘dbname‘

scrapy抓取某些樣式的博客園博客信息

mongo from split yield 標簽 col chrome fin afa 測試過很多樣式的博客園，就發現長書這樣的也就是我的博客這樣的抓取不了，標簽不一樣。其他的只需要把bky.py下的user的值即‘username’改為要抓取的用戶的用戶名即可，如： u

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

一個站點的誕生02--用Scrapy抓取數據

項目 selector 默認安裝找不到 shang foo 術語替換產生假設想抓數據，就須要有爬蟲程序，業內叫crawler或者spider。有各種語言版本號的開源爬蟲。c++, Java, php，在github上搜一下，以"spider c++"為k

Scrapy抓取Quotes to Scrape

same iss ict -a json 一個個 doc common lang # 爬蟲主程序quotes.py # -*- coding: utf-8 -*- import scrapy from quotetutorial.items import QuoteIte

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

/-----------博客園博文

jpg image width logs cnblogs src 分享 .com blog qweqweafasdfa asdfasdfasdfasdf asdfasdfasdfasd asdfasdfasdfasdd /-----------博客園博文

Scrapy抓取動態網頁

都是搜索華盛頓 etime 觀察 review llb 得到我們動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過JS/ AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成&l

使用Nodejs獲取博客園博客數據並處理轉發

p s tid 還需 comm ror ges 中間 ostc rst 通過查詢了解到博客園是有開發博客查詢相關的接口的，列表如下： UriMethodDescription 48HoursTopViewPosts/{itemCount} GET 48小時閱讀排行

2018-1-6-個人博客、博客園、微信公眾號、Github、本地同步寫博客

公眾 form isp ima 語法頁面 mas .html 直接 2018-1-6-個人博客、博客園、微信公眾號、Github、本地同步寫博客Markdown教程同步全篇教程是利用Markdown神器--小書匠進行串聯地，墻裂推薦大家使用 1.寫博客2.發布到博

開通博客園博客說明

準備 hub ron strong 由於 bsp post soft 內容博客園博客說明之前準備用hexo+github搭建的博客來記錄自己的前端之旅，原先的博客確實搭建好了，但是由於自己對博客內容太在乎，一些平常的練習沒有記錄在其中。為了監督自己，為了給平時的練習存

Scrapy抓取起點中文網排行榜

pro 起點 type [1] -m += 描述頁面名稱項目名稱：qidian 項目描述：利用scrapy抓取七點中文網的“完本榜”總榜的500本小說，抓取內容包括：小說名稱，作者，類別，然後保存為CSV文件目標URL：https://www.qidian.com/

博客園博文生成章節目錄

xtu ali 步驟 size index 添加 fir dex before 一、自動生成章節目錄為博文添加目錄索引可以得到更加舒適的閱讀感受，為此，本文為博客園博客自動生成章節目錄索引。 1. 介紹本代碼同時適配如下三種復雜標題情況： “只有一級標題”或“只有二

讓博客園博客自動生成章節目錄索引

博文 cli fun nsf indent 簡單 click style init 討論QQ群：135202158 對於比較長的文章，有一個好的目錄索引是很有必要的，可以讓讀者比較清楚地了解文章內容和層次。然而，目前（2015.7）博客園不像csdn博客那樣，會對發布的

ali 回到頂部 next ora get tmp title logs 只需要閱讀目錄閱讀目錄實現效果添加功能的具體步驟生成腳本回到頂部閱讀目錄實現效果添加功能的具體步驟生成腳本近來寫了一些比較長的博客，閱讀起來很不方便，看

Scrapy 抓取股票行情

安裝 Coding 環境 tps .org mat 等價 node als 安裝scrapy會出現錯誤，我們選擇anaconda3作為編譯環境，搜索scrapy安裝（有錯誤自查）創建scrapy爬蟲項目：　　調出cmd，到相應目錄：輸入： scrapy startpr

python3 + scrapy 抓取boss直聘崗位

前言：本文為記錄工程實現過程，會引用其他文章，如果又不清晰的地方可以檢視原文章。本文主旨在於記錄，所以部分作者瞭解的部分可能不會介紹而直接操作，如果有疑問請留言或者直接使用搜索引擎。引用： windows安裝scrapy 建立第一個scrapy工程一、安裝scrapy 管理員模式開啟power

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git 一 Scrapy介紹與安裝 1， Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中

使用Scrapy抓取數據

元素 www. ace 任務 onf 目錄 mod 模塊獲得轉載：http://blog.javachen.com/2014/05/24/using-scrapy-to-cralw-data.html Scrapy是Python開發的一個快速,高層次的屏幕抓取和web抓

scrapy——抓取知乎

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

使用Word發表博客園博文

網頁 vertical 介紹安裝有用 per images window font 目前大部分的博客作者在用Word寫博客這件事情上都會遇到以下3個痛點：1.所有博客平臺關閉了文檔發布接口，用戶無法使用Word，Windows Live Writer等工具來發布博客。使

scrapy抓取某些樣式的博客園博客信息

相關推薦