Scrapy通過sqlite3保存數據

阿新 • • 發佈：2018-05-13

光標 AI mat items trac lds .cn logs utf

以爬取當當網作為實例 http://bj.ganji.com/fang1/chaoyang/

通過xpath獲取title和price

分別貼出spider, items, pipelines的code

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from ..items import RenthouseItem
 4 
 5 class GanjiSpider(scrapy.Spider):
 6     name = ‘ganji‘
 7     # allowed_domains = [‘bj.ganji.com‘]
 8     start_urls = [‘ 
http://bj.ganji.com/fang1/chaoyang/‘]
 9 
10     def parse(self, response):
11         #print(response)
12         rh = RenthouseItem()
13         title_list = response.xpath(‘//*[@class="f-list-item ershoufang-list"]/dl/dd[1]/a/text()‘).extract()
14         price_list = response.xpath(‘//*[@class="f-list-item ershoufang-list"]/dl/dd[5]/div[1]/span[1]/text() 
‘).extract()
15         # d = {}
16         for i, j in zip(title_list, price_list):
17             rh[‘title‘] = i
18             rh[‘price‘] = j
19             yield rh
20             # d[‘title‘] = i
21             # d[‘price‘] = j
22             # yield d
23         #     print(i, ‘:‘, j)

 1 # -*- coding: utf-8 -*- 

 2 
 3 # Define here the models for your scraped items
 4 #
 5 # See documentation in:
 6 # https://doc.scrapy.org/en/latest/topics/items.html
 7 
 8 import scrapy
 9 
10 
11 class RenthouseItem(scrapy.Item):
12     # define the fields for your item here like:
13     # name = scrapy.Field()
14     title = scrapy.Field()
15     price = scrapy.Field()
16     # pass

 1 # -*- coding: utf-8 -*-
 2 
 3 # Define your item pipelines here
 4 #
 5 # Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
 6 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
 7 import sqlite3
 8 
 9 class RenthousePipeline(object):
10     def open_spider(self, spider):
11         self.con = sqlite3.connect(‘renthouse.sqlite‘)
12         self.cu = self.con.cursor()    
13 
14     def process_item(self, item, spider):
15         #print(spider.name)
16         insert_sql = ‘insert into renthouse (title, price) values ("{}", "{}")‘.format(item[‘title‘], item[‘price‘])
17         #print(insert_sql)
18         self.cu.execute(insert_sql)
19         self.con.commit()
20         return item
21 
22     def spider_close(self, spider):
23         self.con.close()

spider通過 rh = RenthouseItem() 這一句話初始化一個rh的實例，使我們可以通過這個rh傳到pipelines進行處理

所以這裏我們每次通過rh傳一個字典給pipelines(標題titile，價格price)然後通過sql語句插入到sqlite3

open_spider是打開spider的時候做的，所以這個時候我們連接數據庫，個人覺得這篇文章關於cursor光標及sqlite的應用講的很清楚https://www.cnblogs.com/qq78292959/archive/2013/04/01/2993327.html

註意insert等這種修改數據execute(執行)以後一定要commit(提交)!!!

close_spider就是關閉spider的時候做的，所以這個時候我們關閉與數據庫的連接

Scrapy通過sqlite3保存數據

光標 AI mat items trac lds .cn logs utf 以爬取當當網作為實例 http://bj.ganji.com/fang1/chaoyang/ 通過xpath獲取title和price 分別貼出spider, items, pipelines的co

Swift get和set方法以及只讀屬性(計算型屬性，本身不保存數據，都是通過計算獲得結果)

get bsp 簡寫保存數據 value string nsobject var import import UIKit class Person: NSObject { private var _name: String? var name: Strin

八,ESP8266 文件保存數據

sof api文檔 true crc校驗空閑遠程存在現在其余應該是LUA介紹8266的最後一篇,,,,,,下回是直接用SDK,,然後再列個12345.......不過要等一兩個星期,先忙完朋友的事情前面幾篇用AT指令版本的一, http://www.cn

zbb20170928 spring hibernate mysql 保存數據時自動生成主鍵設置

ring integer 主鍵 mys unique 技術分享 ner img rate @Id @GeneratedValue @Column(name = "id", unique = true, nullable = false) public In

mybatis 處理數組類型及使用Json格式保存數據 JsonTypeHandler and ArrayTypeHandler

type http use bsp ray log json handle json格式 http://www.cnblogs.com/kylindai/p/3563818.html http://www.cnblogs.com/Dhouse/p/5977039.h

c++保存數據到TXT

ase nts pri pts fst ani documents afa sprintf sprintf(filename, "/Users/anitafang/Documents/Datasets/test-tensorflow/002/annot3/%d.pts",

IOS 四種保存數據的方式

val 磁盤發送了吧 oss tor nco final call 在iOS開發過程中,不管是做什麽應用,都會碰到數據保存的問題。將數據保存到本地,能夠讓程序的運行更加流暢,不會出現讓人厭惡的菊花形狀,使得用戶體驗更好。下面介紹?一下數據保存的方式: 1.NSKey

Entity Framework使用EntityState和Attach來保存數據變化以及更新實體的個別字段

err 語句 question 而不是 set xxx 方式 log 我們在使用Entity Framework作為ORM來存取數據的過程中，最常規的操作就是對數據對象的更新。本文將會包含如何Attach Entity到一個數據Context中，以及如何使用EntityS

Unity中建立文本保存數據

HA 文本文 obj onu pla pat ble input getc public void CreateYunYD() { GameToolsManager.Instance.effectType = EFFECTTYPE.YunYD;

MySql使用存儲過程清除數據庫所有表數據，保存數據結構

SQ 循環 ati schema locate TE fault truncate one BEGIN DECLARE strClear VARCHAR(256); DECLARE done INT DEFAULT 0; #定義遊標 DECLARE cu

java上傳不同類型圖片,保存數據庫(Base64位圖轉網絡圖片)

con mem 17. tex tostring rate nor ret pan 直接上代碼好不好方法名: GenerateImage傳參: base64Img:上傳的base64碼 realPath:生成的圖片路徑　 imgTypes :圖片類型 String

日誌中文亂碼處理，請求亂碼，響應亂碼，保存數據到數據庫亂碼

conf 服務器過濾器 close 發布服務 setting open odi idea 1.日誌亂碼處理中文亂碼需要修改四個部分：1.idea安裝目錄下的bin/idea64.exe.vmoptions和bin/idea.exe.vmoptions追加-Dfile.e

vuex commit保存數據技巧

報錯 too ref com urn put row save return 使用vuex時官方推薦使用commit才修改state數據。優點便於調試，當數據變化時，可以在vuetools工具中看到是哪個函數修改了state值。缺點采用commit修改數據，可能

pandas學習(常用數學統計方法總結、讀取或保存數據、缺省值和異常值處理)

導入 numpy shape 缺省數量導入數據個數就是 msu pandas學習(常用數學統計方法總結、讀取或保存數據、缺省值和異常值處理) 目錄常用數學統計方法總結讀取或保存數據缺省值和異常值處理　　常用數學統計方法總結 count

Docker最全教程——數據庫容器化之持久保存數據（十一）

sql 增加通過 cli sel inf 遠程支持 aaa 原文:Docker最全教程——數據庫容器化之持久保存數據（十一）上一節我們講述了SQL Server容器化實踐（註意，SQL Server現在也支持跨平臺），本節將講述如何持久保存數據，並且接下來將逐步講解其他

Python-selenium翻頁爬取csdn博客保存數據入mysql

一個數據截圖代碼 on() 博客 cat utf8 data csdn博客部分截圖博客鏈接：https://blog.csdn.net/kevinelstri/article/list/1? 此次目的是要爬取文章標題，發表文章時間以及閱讀數量 1.瀏覽器

谷歌瀏覽器自動保存數據後input的黃色背景解決辦法

黃色默認 alt 缺陷 img 保存顏色 com 自動造成黃色背景的問題在於這裏：解決辦法：1.如果需求可以不記錄數據的情況下可以禁用input的自動補全，即<input type="text" autocomplete="off"> 默認

spark保存數據到hdfsJ及hive

types insert output iad .sh 開啟 3.5 afr googl package spark88 import org.apache.spark.sql.{DataFrame, Row, SQLContext, SaveMode}import

python 、mmap 實現內存數據共享

python access import 字符串二進制 import mmap mmap_file = None##從內存中讀取信息，def read_mmap_info(): global mmap_file mmap_file.seek(0)

Java內存數據模型

局部變量表 ole flow 記錄本地線程 sta 實現啟動運行時本篇文章帶來的是對Java內存數據模型的介紹，這對於我們深入理解Jvm虛擬機工作的原理和Java內存的劃分大有裨益，好了，為了讓我們理解的更為深刻，我們將會加入圖片輔助的方法去理解。本篇博文

Scrapy通過sqlite3保存數據

相關推薦