【Python爬蟲】輕鬆幾步將 scrapy 框架獲取得到的資料儲存到 MySQL 資料庫中

阿新 • • 發佈：2019-02-14

以下操作是在一個完整的 scrapy 專案中新增程式碼:

中介軟體和 spiders 中的程式碼都不需要修改只需要做下面兩件事就可以將資料儲存到資料庫了，不過在寫程式碼之前我們要先：

在終端執行命令：net start mysql57 開啟 mysql 伺服器
建立資料庫，在資料庫中建立與要儲存相關的資料的表（名稱要與框架中的名稱一樣, 表中建立的欄位名稱也要跟框架中需要儲存欄位名一致）（利用圖形化介面工具建立起來方便些：Navicat Premium）
建立好資料庫和表之後先測試一下資料庫能否連線成功

'''
測試資料庫是否連線成功
'''
import pymysql

conn=pymysql.connect(host='127.0.0.1',port=3306,user='資料庫名稱',password='資料庫密碼',db='表名',charset='utf8')
print(conn)

輸出結果為：<pymysql.connections.Connection object at 0x000000000220D7B8>
則表示資料庫連線成功  如果報錯則失敗

當資料庫連線成功了之後, 接下來我們就開始在scrappy框架中進 "裝修" :

1：配置環境在setting檔案中加入： sql資料庫引數和 pipelines管道配置：

# 設定管道中類的優先順序  
ITEM_PIPELINES = {
'movie.pipelines.MoviePipeline': 300, # 管道中自帶的類，優先順序預設第一
'movie.pipelines.MovieMysqlPipeline': 200, # 管道中 新建的類 用來儲存資料到資料庫
}

# 連線資料庫
# 填的 是所儲存資料庫的資訊
DB_HOST = '127.0.0.1'
DB_PORT = 3306
DB_USER = '使用者名稱'
DB_PASSWORD = '密碼'
# 資料庫名稱
DB_DB = 'movies'  
DB_CHARSET = 'utf8'

2 ：

管道中新建一個類用來儲存資料到資料庫：

(下面程式碼中關於資料庫的一下東西是博主自己 , 請自行修改 )

import pymysql
from scrapy.utils.project import get_project_settings

# 儲存資料到mysql資料庫(資料去重)
class WeimobMysqlPipeline(object):

    def __init__(self):
        setting = get_project_settings()
        self.host = setting.get("DB_HSOT")
        self.port = setting.get("DB_PORT")
        self.user = setting.get("DB_USER")
        self.password = setting.get("DB_PASSWORD")
        self.db = setting.get("DB_DB")
        self.charset = setting.get("DB_CHARSET")
        self.conn = pymysql.connect(host=self.host, port=self.port, user=self.user, password=self.password, db=self.db, charset=self.charset)
        # 建立遊標 通過cursor 執行 sql語句
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
            try:
                # 查重處理
                self.cursor.execute('select * from agents where agent = %s and agent_company= %s',(item['agent'], item['agent_company']))
                # 檢視是否有重複的資料
                repetition = self.cursor.fetchone()
                #重複
                if repetition:
                    # 列印一下
                    print('資料重複',item['agent'],item['agent_company'])
                else:
                    # 插入資料
                    self.cursor.execute('insert into agents(agent,agent_company) values("%s","%s") '%(item['agent'],item['agent_company']))
                #提交sql語句
                    self.conn.commit()

            except Exception as error:
                print(error)
            return item

    def close_spider(self, spider):
            # 關閉 遊標
            self.cursor.close()
            # 關閉 連線
            self.conn.close()

經過一番的 '裝修' 現在我們就能把獲取地帶的目標資料儲存到自己的資料庫中了

【Python爬蟲】輕鬆幾步將 scrapy 框架獲取得到的資料儲存到 MySQL 資料庫中

以下操作是在一個完整的 scrapy 專案中新增程式碼: 中介軟體和 spiders 中的程式碼都不需要修改只需要做下面兩件事就可以將資料儲存到資料庫了，不過在寫程式碼之前我們要先：在終端執行命令：net star

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

【Python爬蟲】按時爬取京東幾類自營手機型號價格引數並存入資料庫

一、最近剛好想換手機，然後就想知道京東上心儀的手機價格如何，對比手機價格如何，以及相應的歷史價格，然後就用Python requests+MySQLdb+smtplib爬取相關的資料二、關於實現的主要步驟： 1、根據京東搜尋頁面，搜尋某型號（

【Python爬蟲】Requests庫的安裝

comm AS imp pypi pan span douban OS host 1.按照普通的pip不能行，說find不能有位小傑控的大牛說了一句：換一個國內的更新源吧， pip install requests -i http://pypi.douban.com/si

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

【Python爬蟲】Python安裝

pip 是一個現代的，通用的 Python 包管理工具。提供了對 Python 包的查詢、下載、安裝、解除安裝的功能。 IDLE 是一個Python Shell，一個純 Python下自帶的簡潔的整合開發環境(IDE)。IDLE是跟Python一起安裝的，不過

【python 爬蟲】BeautifulSoup4 庫的介紹使用

有部分內容為北理嵩天老師的爬蟲教程的個人學習筆記，結合其他部落格整理學習。前言：資訊標記形式 html是將聲音、影象、音訊嵌入到文字中，是Internet上的主要資訊組織、傳遞形式，通過預定義的標籤< >…</ >將不同型別的資訊組織起來。國際上標準的資訊標

【Python爬蟲】下載微信公眾號圖片

大家用爬蟲下載圖片時肯定遇到過https://demo?wx_fmt=jpeg連結的圖片，常見的就是微信公眾號的圖片。遇到連結圖片用普通的方式是無法爬取下來的，我們可以用urllib.request進

【Python爬蟲】微信公眾號歷史文章和文章評論API分析

上一篇文章爬取微信公眾號文章資訊準備工作介紹了微信公眾號歷史文章和文章評論API的組成情況，歷史文章API格式：https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

【Python爬蟲】使用urllib.request下載已知連結的網路資源

如果有這樣一個場景，我們的EXCEL某一列記錄了好多（圖片、視訊、音訊）連結A，另外一列記錄了連結名稱B，現在我們想要自動下載這些連結的檔案，我們應該怎樣處理？ 1.迴圈去excel取值,將A和B存入到一個二維列表中 2.根據連結字尾不同情況（.jpg,.mp4,mp3等）用urllib.req

【python 爬蟲】Mac環境下selenium、ChromeDriver的安裝

1.安裝Selenium庫在終端輸入下面指令： pip3 install selenium 2.安裝ChromeDriver 這個安裝有點麻煩，我參考一個bloghttps://cuiqingcai.com/5135.html的。Mac的rootless機制我弄了很

【python爬蟲】動態載入頁面的解決辦法（以ins為例）

現在很多的web頁面使用ajax技術動態載入頁面。但對於爬蟲來說，目標資料很可能不在頁面HTML原始碼中（右鍵檢視網頁原始碼，通過F12查詢），針對靜態頁面的爬蟲不再滿足現在的需求。很多教程都推薦用Selenium和PhantomJS配合使用，實現網頁的渲染，得到網頁的全

【Python爬蟲】Requests 請求並讀寫、儲存到excel檔案中

爬取前程無憂職位資訊此次我們用簡單的爬蟲來展示如何把爬到提取出的資訊儲存的excel檔案中.（ps：首先你要安裝好模組openpyxl否則就點選右上角離開，百度搜素安裝.）選前程無憂的網頁作為案例是因為主編最近在看看工作的訊息，想想就順手寫了一個為方便尋找滿足自己要

【python爬蟲】關於403問題的反爬處理

今天在學習小甲魚的python爬蟲，遇到下面問題首先，貼上今天找到的一個技巧在python報錯之後，定位c：之前的那個語句基本上就是出錯的地方。 1.urllib.error.HTTPError: HTTP Error 403: Forbidden 這個問題是由於

【Python爬蟲】表弟用Python爬下今日頭條上萬美女照片，玩的不亦樂乎！

我們的學習爬蟲的動力是什麼？有人可能會說：如果我學好了，我可以找一個高薪的工作。有人可能會說：我學習程式設計希望能夠為社會做貢獻（手動滑稽）有人可能會說：為了妹子！ ..... 其實我們會發現妹子才是第一生產力呀！今天咱們就是爬取今日頭條，你要問我為

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

【python爬蟲】BeautifulSoup庫的選擇器select()方法

一般使用BeautififulSoup解析得到的Soup文件可以使用find_all()、find()、select() 方法定位所需要的元素。find_all()是獲得list列表、find()

【Python爬蟲】有道翻譯最新爬蟲教程，帶GUI應用介面，2018年3月18日實測可用

最新的有道翻譯爬蟲程式碼，包含應用程式介面，更新於20180318import urllib.request import urllib.parse import json import time import gzip import random import hashli

【Python爬蟲】requests+Beautifulsoup存入資料庫

本次記錄使用requests+Beautiful+pymysql的方法將大學排名的資料存入本地MySQL資料庫。這是一篇學習性文章，希望能夠分享在學習過程中遇到的坑與學到的新技術，試圖用最簡單的話來闡述我所記錄的Python爬蟲筆記。一、爬取結果

【Python爬蟲】 輕鬆幾步 將 scrapy 框架 獲取得到的 資料 儲存到 MySQL 資料庫中

以下操作 是在 一個 完整的 scrapy 專案中 新增 程式碼:

當資料庫連線成功了之後, 接下來 我們就開始在scrappy框架中進 "裝修" :

1：配置環境 在setting檔案中加入： sql資料庫引數 和 pipelines管道配置：

2 ： 管道中 新建一個類 用來儲存資料到資料庫 ：

經過一番的 '裝修' 現在我們就能把 獲取地帶的目標資料 儲存到 自己的 資料庫中了

相關推薦

【Python爬蟲】輕鬆幾步將 scrapy 框架獲取得到的資料儲存到 MySQL 資料庫中

以下操作是在一個完整的 scrapy 專案中新增程式碼:

當資料庫連線成功了之後, 接下來我們就開始在scrappy框架中進 "裝修" :

1：配置環境在setting檔案中加入： sql資料庫引數和 pipelines管道配置：

2 ：

管道中新建一個類用來儲存資料到資料庫：

經過一番的 '裝修' 現在我們就能把獲取地帶的目標資料儲存到自己的資料庫中了