Scrapy抓取起點中文網排行榜

阿新 • • 發佈：2018-07-18

pro 起點 type [1] -m += 描述頁面名稱

項目名稱：qidian

項目描述：利用scrapy抓取七點中文網的“完本榜”總榜的500本小說，抓取內容包括：小說名稱，作者，類別，然後保存為CSV文件

目標URL：https://www.qidian.com/rank/fin?style=1

項目需求：

　　1.小說名稱

　　2.作者

　　3.小說類別

第一步：在shell中創建項目

scrapy startproject qidian

第二步：根據項目需求編輯items.py

1 #-*- coding: utf-8 -*-
2 import scrapy
3 
4 class QidianItem(scrapy.Item):
5     name = scrapy.Field()
 
6     author = scrapy.Field()
7     category = scrapy.Field()

第三步：進行頁面分析，利用xpath或者css提取數據，創建並編輯spider.py

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from ..items import QidianItem
 4 
 5 class QidianSpider(scrapy.Spider):
 6     name = ‘qidian‘
 7     start_urls = [‘https://www.qidian.com/rank/fin?style=1&dateType=3 
‘]
 8 
 9     def parse(self, response):
10         sel = response.xpath(‘//div[@class="book-mid-info"]‘)
11         for i in sel:
12             name = i.xpath(‘./h4/a/text()‘).extract_first()
13             author = i.xpath(‘./p[@class="author"]/a[1]/text()‘).extract_first()
14             category = i.xpath(‘ 
./p[@class="author"]/a[last()]/text()‘).extract_first()
15             item = QidianItem()
16             item[‘name‘] = name
17             item[‘author‘] = author
18             item[‘category‘] = category
19             yield item

　　上面這裏是一頁的數據，接下來抓取一下頁的連接（因為項目過於小巧，我認為沒必要用到一些高大上的方法來實現，直接觀察URL的構造規律就可以簡單寫出代碼），下面是spider.py的完整代碼

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from ..items import QidianItem
 4 
 5 class QidianSpider(scrapy.Spider):
 6     name = ‘qidian‘
 7     start_urls = [‘https://www.qidian.com/rank/fin?style=1&dateType=3‘]
 8     n = 1 #第一頁
 9 
10     def parse(self, response):
11         sel = response.xpath(‘//div[@class="book-mid-info"]‘)
12         for i in sel:
13             name = i.xpath(‘./h4/a/text()‘).extract_first()
14             author = i.xpath(‘./p[@class="author"]/a[1]/text()‘).extract_first()
15             category = i.xpath(‘./p[@class="author"]/a[last()]/text()‘).extract_first()
16             item = QidianItem()
17             item[‘name‘] = name
18             item[‘author‘] = author
19             item[‘category‘] = category
20             yield item
21
22         if self.n < 25:
23             self.n += 1 #n表示頁碼
24             next_url = ‘https://www.qidian.com/rank/fin?style=1&dateType=3&page=%d‘ % self.n
25             yield scrapy.Request(next_url, callback = parse)

第四步：啟動爬蟲並保存數據

scrapy crawl qidian -o qidian.csv

Scrapy抓取起點中文網排行榜

pro 起點 type [1] -m += 描述頁面名稱項目名稱：qidian 項目描述：利用scrapy抓取七點中文網的“完本榜”總榜的500本小說，抓取內容包括：小說名稱，作者，類別，然後保存為CSV文件目標URL：https://www.qidian.com/

爬取起點中文網小說介紹信息

OS tex 2.0 user agent lee idp url pri 字數的信息（word）沒有得到缺失 import xlwt import requests from lxml import etree import time all_info_list=[]

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

報錯中間鍵方式 set 分享圖片生成 pytho 薪酬 color 本次以scrapy抓取拉勾網職位信息作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visua

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

本次以scrapy抓取拉勾網職位資訊作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visual studio一勞永逸，如果報錯缺少前置依賴，就先安裝依賴）本篇

scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

上一篇中已經分析了詳情頁的url規則，並且對items.py檔案進行了編寫，定義了我們需要提取的欄位，本篇將具體的items欄位提取出來這裡主要是涉及到選擇器的一些用法，如果不是很熟，可以參考：scrapy選擇器的使用依舊是在lagou_c.py檔案中編寫程式碼首先是匯入Lag

用Scrapy抓取的中文字元匯出到csv中出現亂碼

背景按照這篇文章學些Scrapy框架，爬取豆瓣電影Top250的資訊，將資訊匯入到本地csv檔案時，由於電影名稱是中文，儲存時出現了亂碼。解決辦法在setting檔案中加入這樣一行語句： FEED_EXPORT_ENCODING = ‘utf-8-sig’ 儲存se

Python3爬取起點中文網閱讀量資訊，解決文字反爬~~~附原始碼

起點中文網，在“數字”上設定了文字反爬，使用了自定義的文字檔案ttf通過瀏覽器的“檢查”顯示的是“□”，但是可以在網頁原始碼中找到對映後的數字正則爬的是網頁原始碼，xpath是預設utf-8解析網頁資料，用xpath爬出來的也是方框，因此只能使用正則匹配爬取關鍵數字資訊本例以小說《斗羅大陸》為例

起點中文網小說爬取-etree，xpath，os

tps div html utf requests import bject finally fin 本文章主要是lxml庫的etree解析抽取與xpath解析的應用，還使用了os庫寫文件 import os import requests from lxml impor

一個站點的誕生02--用Scrapy抓取數據

項目 selector 默認安裝找不到 shang foo 術語替換產生假設想抓數據，就須要有爬蟲程序，業內叫crawler或者spider。有各種語言版本號的開源爬蟲。c++, Java, php，在github上搜一下，以"spider c++"為k

Scrapy抓取Quotes to Scrape

same iss ict -a json 一個個 doc common lang # 爬蟲主程序quotes.py # -*- coding: utf-8 -*- import scrapy from quotetutorial.items import QuoteIte

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

用python來抓取“煎蛋網”上面的美女圖片，尺度很大哦！哈哈

each file like http add 寫入 header 。。 num 廢話不多說，先上代碼： import urllib.request import re #獲得當前頁面的頁數page_name def get_pagenum(url): req

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

Scrapy抓取動態網頁

都是搜索華盛頓 etime 觀察 review llb 得到我們動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過JS/ AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成&l

起點中文網分析

居中 per header box rop pla clip 技術分享圖片 Header： 1.定位上下左右居中：left top bottom 均設為0；（除去文字圖片盒子均適合不？） 2.box-sizing:border-box; //控制盒子大小不變 3.是不是為

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

scrapy抓取某些樣式的博客園博客信息

mongo from split yield 標簽 col chrome fin afa 測試過很多樣式的博客園，就發現長書這樣的也就是我的博客這樣的抓取不了，標簽不一樣。其他的只需要把bky.py下的user的值即‘username’改為要抓取的用戶的用戶名即可，如： u

Scrapy 抓取股票行情

安裝 Coding 環境 tps .org mat 等價 node als 安裝scrapy會出現錯誤，我們選擇anaconda3作為編譯環境，搜索scrapy安裝（有錯誤自查）創建scrapy爬蟲項目：　　調出cmd，到相應目錄：輸入： scrapy startpr

Scrapy抓取起點中文網排行榜

相關推薦