scrapy框架基於mysql資料庫儲存資料方法、案例

阿新 • • 發佈：2018-11-17

流程思路

將解析資料存到items物件
使用yield 將items交給管道檔案處理
在管道檔案pipelines編寫程式碼儲存到資料庫
在setting配置檔案開啟管道

案例

`items中`

按照格式定義欄位

import scrapy

class QiubaiproItem(scrapy.Item):
    # 語法：  欄位 = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()

`setting中`

解開註釋

ITEM_PIPELINES = {
   'qiubaiPro.pipelines.QiubaiproPipeline': 300,  # 300優先順序
}

`爬蟲檔案中`

必須匯入items 中的類
將資料錄入item
用yield item提交給管道

import scrapy
from qiubaiPro.items import QiubaiproItem


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['qiushibaike.com/text']  # 圖片可能不是該域名下 

    start_urls = ['https://www.qiushibaike.com/text/']  # https 要注意

    def parse(self, response):
        # 取段子列表
        div_list = response.xpath("//div[@id='content-left']/div")

        # 儲存解析到的頁面資料
        data_list = []
        for div in div_list:
            # xpath解析的內容儲存到 selector物件中，獲取內容.extract() 

            # extract_first()獲取內容  =  .extract()[0]
            author = div.xpath("./div/a[2]/h2/text()").extract()[0]  # 或extract_first()
            content = div.xpath(".//div[@class='content']/span/text()").extract_first()

            # 1.資料解析到items物件(先匯入)
            item = QiubaiproItem()
            item['author'] = author
            item['content'] = content

            # 2.將item物件提交給管道
            yield item

`管道pipelines中`

現在資料庫中建立對應格式的表
匯入pymysql包
在open_spider中連結資料庫
利用pymysql進行資料錄入
用try捕獲並回滾錯誤
在close_spider中關閉資料庫

import pymysql


class QiubaiproPipeline(object):
    conn = None
    cursor = None  # 遊標物件

    # 1. 連結資料庫
    # 2. 執行sql語句
    # 3. 提交

    # 爬蟲開始執行
    def open_spider(self, spider):
        print('開始爬蟲，連結資料庫')
        self.conn = pymysql.Connect(
            host='127.0.0.1',
            port=3306,
            user='root',
            password='123',
            db='qiubai',
        )

    # 對提交的item物件，mysql資料庫儲存
    # 爬蟲每次提交item，該方法被執行一次
    def process_item(self, item, spider):

        # 寫sql語句 往qiubai這個表中插資料，沒有表的話要先在資料庫建立
        sql = 'insert into qiubai values("%s","%s")' % (item['author'], item['content'])

        # 建立遊標物件
        self.cursor = self.conn.cursor()

        # 提交事務
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print(e)
            print('異常回滾')
            self.conn.rollback()

        return item

    # 結束爬蟲時呼叫
    def close_spider(self, spider):
        print('爬蟲結束')
        self.cursor.close()
        self.conn.close()

scrapy框架基於mysql資料庫儲存資料方法、案例

流程思路將解析資料存到items物件使用yield 將items交給管道檔案處理在管道檔案pipelines編寫程式碼儲存到資料庫在setting配置檔案開啟管道案例 items中按照格式定義欄位 import s

linux下在伺服器上配置scrapy框架的python爬蟲，使用mysql資料庫儲存

最近在做把爬蟲部署到伺服器上，爬下來的資料再存到資料庫裡。因為伺服器是linux系統的，所以我們事先需要配置一些環境檔案以及依賴的庫 1、裝python 這一步沒啥好說的吧 2、裝pip，然後再用pip裝依賴的庫： pip install pymysql

Scrapy框架基於管道儲存資料到本地檔案流程、案例

流程思路將解析資料存到items物件使用yield 將items交給管道檔案處理在管道檔案pipelines編寫程式碼儲存在setting配置檔案開啟管道案例 setting.py配置檔案取消註釋，數字為優先順序

ABP框架使用Mysql資料庫，以及基於SQLServer建立Mysql資料庫的架構和資料

ABP預設的資料庫是SQLServer，不過ABP框架底層是EF框架，因此也是很容易支援其他型別的資料庫的，本篇隨筆介紹在ABP框架使用Mysql資料庫，以及基於SQLServer建立MySql資料庫的架構和資料的處理。如果需要其他方式資料庫的支援，那麼需要引入相應的支援程式集。Nuget中安裝MySql相

使用binlog日誌恢復MySQL資料庫刪除資料的方法

binlog日誌簡介: binlog 就是binary log，二進位制日誌檔案，這個檔案記錄了MySQL所有的DDL和DML(除了資料查詢語句)語句，以事件形式記錄，還包含語句所執行的消耗的時間。 binlog日誌包括兩類檔案： 1）二進位制日誌索引檔案（檔名字尾為.index）：用於

[原始碼和文件分享]基於JSP的SSM框架和MYSQL資料庫實現的租車管理系統

一、實驗目的需求分析是分析客戶提出的初步需求的基礎上，確定系統完整、準確、清晰、具體的功能要求，並且分析形成客戶業務處理的資料流圖和資料字典。此次實驗主要是分析酒店預定管理系統的需求分析。二、實驗原理進行需求分析首先是調查清楚使用者的實際要求，與客戶達成共識，然後分析與表達這些需求

關於mysql資料庫匯入資料慢的解決方法

mysqldump匯入慢的解決方法 mysql匯出的SQL語句在匯入時有可能會非常非常慢，經歷過匯入僅45萬條記錄，竟用了近3個小時。在匯出時合理使用幾個引數，可以大大加快導入的速度。 -e 使用包括幾個VALUES列表的多行INSERT語法; –max_al

批量向mysql資料庫匯入資料夾中的excl檔案（方法2）

前一篇是直接將excl檔案匯入到資料庫中，這次是現將excl檔案轉化成Dataframe格式的，然後直接匯入mysql資料庫（有現成函式哦） import numpy as np import pandas as pd import pymysql from sqlalchemy import

WINDOWS下更改MYSQL資料路徑(datadir)後服務啟動1067解決不能改變mysql資料庫儲存位置

原文地址：http://hi.baidu.com/xingsheng7/item/9bc19a8fe73708c498255f8f 晚上安裝完MYSQL(系統：深度WINXPSP2, MYSQL版本：5.1.32)後,用MYSQL自帶的配置工具配置完發現預設的資料存放

MySQL資料庫與資料表的基本操作

初學小建議 MySQL是不區分大小寫的，大家在初學的時候希望能養成習慣，把保留詞，關鍵字統一採用大寫的形式書寫，其他的使用小寫字母，方便區分。初期這個習慣可能不太容易養成，但是一旦習慣，對工作的規範性會好很多，統一的規範方便大家一起工作！選單

Mysql資料庫儲存引擎

*.sql ：mysql執行語句一、如果Mysql是myisam引擎的，有全文索引那麼一個表有如下三個檔案： *.frm：存放表結構的檔案 *.myd：存放表資料data的檔案 *.myi：存放表索引index的檔案二、如果Mysql是Innodb引擎的，

關於MySQL資料庫儲存過程的感想

以下只是學習路上的淺薄感想，如理解有所偏差，還請有識之士指正！一、儲存過程意義理解關於儲存過程，我的理解是對資料庫語言進行程式設計呼叫，就像Java程式碼類程式設計寫一個具有某種特定功能的方法去進行呼叫一樣。資料庫的儲存過程是一組相關聯的sql語句或函式，通過進行組合形成模

如何利用mysql+pyecharts儲存資料並可視化

目標爬取紅嶺創投(https://www.my089.com/)日投資發標記錄,儲存在mysql資料庫中, 並將資料視覺化以便分析. 行動爬取資料通過selenium+FIrefox的無頭模式將需要的資料爬取出來,程式碼實現不在贅述,詳細步驟可檢視我的上一篇圖文(如何

Python中mysql資料庫儲存富文字編輯器中的內容

使用python 模組MySQLdb自帶的針對mysql的字元轉義函式 escape_string """insert into csdn_test(message) VALUES("%s");""" % (pymysql.escape_string(item['content']))

資料儲存之使用MongoDB資料庫儲存資料

安裝MongoDB環境： 1.官網下載：https://www.mongodb.com/download-center#community 2.MongoDB視覺化工具compass下載https://www.mongodb.com/download-center#compass 筆記

python-------說一下 Mysql 資料庫儲存的原理？

說一下 Mysql 資料庫儲存的原理？儲存過程是一個可程式設計的函式，它在資料庫中建立並儲存。它可以有 SQL 語句和一些特殊的控制結構組成。當希望在不同的應用程式或平臺上執行相同的函式，或者封裝特定功能時，儲存過程是非常有用的。資料庫中的儲存過程可以看做是對程式設計中

mysql資料庫的資料約束

/*資料約束*/ CREATE TABLE user01 ( uid INT NOT NULL,/*非空約束*/ PRIMARY KEY /*主鍵約束*/ AUTO_INCREMENT /*

mysql資料庫儲存引擎讓我崩潰了

好久沒跟資料庫死磕了，這次是真被資料庫死磕了。 windows下沒有任何問題，移植到linux下，老區沒有任何異常情況，新區大量複製裝備，後臺工具執行期間，角色無法正常登陸，伺服器顯示執行狀態良好。以前用得蠻好的工具，在新區資料庫才40萬資料帶索引一條update語句要1分鐘，而且upda

c# MVC框架對mysql資料庫的查詢

using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.Mvc; using demo2.Models; using MySql.Data.

ambari安裝使用MySQL資料庫的具體方法

一、需要先下載資料庫並安裝 1、使用 yum list|grep mysql 檢視yum上的可用MySQL版本 2、然後使用 yum installd mysql安裝MySQL資料庫 3、檢視資料庫狀態：chkconfig status mysql 4、啟動資料庫：systemctl m

scrapy框架 基於mysql資料庫儲存資料方法、案例

流程思路

案例

items中

setting中

爬蟲檔案中

管道pipelines中

相關推薦

scrapy框架基於mysql資料庫儲存資料方法、案例

`items中`

`setting中`

`爬蟲檔案中`

`管道pipelines中`