將爬取的資料傳入到pipeline中，需要對settings.py進行修改

阿新 • • 發佈：2018-11-03

爬蟲主程式碼xx.py完成之後，在Terminal端，執行scrapy crawl xx.py

1.如果執行結果正確，這時候，我們需要將爬取的資料通過某種途徑（資料庫、.txt存入本地或者其他）儲存下來，此時pipeline.py檔案用來決定到此是以哪種方式儲存下來。

此時，首先編寫pipeline.py檔案，比如我希望將我爬取的資訊存入本地，此時pipeline.py檔案如下：

import scrapy
import codecs
import sys
from imp import reload

reload(sys)
#sys.setdefaultencoding('utf-8')


class NewsPipeline(object):
    def process_item(self, item, spider):
        file_name = item['news_title']
        file_name += '.txt'
        fp = codecs.open(item['path'] + '/' + file_name, 'w')
        fp.write('name_id:' + item['name_id'] + '\n')
        fp.write('website_name:' + item['website_name'] + '\n')
        fp.write('post_name:' + item['post_name'] + '\n')
        fp.write('news_url:' + item['news_url'] + '\n')
        fp.write('news_author:' + item['news_author'] + '\n')
        fp.write('publish_time:' + item['publish_time'] + '\n')
        fp.write('crawl_time:' + item['date'] + '\n')
        fp.write('news_tags:' + item['news_tag'] + '\n')
        fp.write('news_title:' + item['news_title'] + '\n')
        fp.write('news_content:' + item['article_contentText'] + '\n')
        fp.close()
        return item

2.其此，需要將爬蟲檔案獲取的資料傳入到pipeline中，需要通過設定settings.py檔案

將ITEM_PIPELINES中的這三行註釋去掉。其中'ｘｘ.pipelines.ＸｘPipeline'　（ｘｘ表示自定義的爬蟲名稱），這一步完成之後，可以檢視到本地已經儲存下來爬取的資料。

ITEM_PIPELINES = {
    'news.pipelines.NewsPipeline': 300,
}

３.如果遇到同類問題，可以一同討論一下。

將爬取的資料傳入到pipeline中，需要對settings.py進行修改

爬蟲主程式碼xx.py完成之後，在Terminal端，執行scrapy crawl xx.py 1.如果執行結果正確，這時候，我們需要將爬取的資料通過某種途徑（資料庫、.txt存入本地或者其他）儲存下來，此時pipeline.py檔案用來決定到此是以哪種方式儲存下來。此時，首先編寫pipe

HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

/** * 在文字中通過正則進行匹配 * * @param url 請求處理的url * @param encoding 字元編碼 * @param regex 待匹配的正則表示式 */ publi

將爬取的資料儲存到mysql中

為了把資料儲存到mysql費了很多周折，早上再來折騰，終於折騰好了安裝資料庫 1、pip install pymysql(根據版本來裝) 2、建立資料開啟終端鍵入mysql -u root -p 回車輸入密碼 &

Python3.6實現scrapy框架爬取資料並將資料插入MySQL與存入文件中

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org

將豆瓣排名前250爬取資料通過sqlite3存入資料庫

#爬取豆瓣top250電影，並儲存到資料庫 import requests from bs4 import BeautifulSoup import sqlite3 def get_html(web_url): user_agent = 'Mozilla/5.0 (Linux; Andro

R中使用rvest爬取資料小試

總結R中使用 xpath 和 css selectors 獲取標籤內容(xpath功能強大，而CSS選擇器通常語法比較簡潔，執行速度更快些) 例:抓取下面標籤的內容： <h3 class="lister index unbold text"><span>小明他很忙</

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！ 2.urllib.parse模組 This module define

python 將爬取的資料儲存在資料庫裡

python 將爬取的資料儲存在資料庫裡 import urllib.request import re import sqlite3 response = urllib.request.urlopen("https://search.51job.com/list/010000%252C

sql 中怎麼將A表插入B表中，，去除兩張表中含有的重複資料

insert into B(欄位列表) select 欄位列表 from A where not exists(select * from B where a.keycol1 = b.keycol1) keycol1為A表和B 表中的欄位，可能帶有主鍵，可以此欄位來判斷A表和B表中是

Eclipse匯入的專案中發現包的形式變成了資料夾的形式，需要將資料夾的形式變成包

匯入的專案中包變成了資料夾的形式：解決方案：右點選專案，然後點選Properties，在彈出的視窗中選擇Java Build Path，然後選擇Source tab，展開找到Excluded。正常情況下應該是None，現在發現是 ××，所以需

python爬取資料並將其存入mongodb

其實很早就想知道如何將爬取到的資料存入資料庫，並且實現前後臺的互動功能，昨天剛剛看了一集關於爬資料並存資料的視訊，今天，在這裡總結一下~ 以下為最終所需要爬取的資訊：由於需要爬取所有的二手商品資訊，所以以下內容也要爬取到： 1.先寫一個py檔案，用於爬取上述圖片類目導

python 爬蟲（三）模擬post請求，爬取資料

import urllib.request import urllib.parse url =r"http://www.baidu.com" #將要傳送的資料合成一個字典 #字典的鍵值在網頁裡找 data = { "username":"1507", "password":"230

scrapy爬取資料之後，如何存入mysql

pipelines.py檔案中新建MySQLPipeline類： # 匯入庫 from scrapy.utils.project import get_project_settings import

Python爬蟲模擬登入(四)：BeautifulSoup，爬取資料

登陸成功後爬取我們想要的資料；用到的庫：BeautifulSoupF12檢視網頁結構；程式碼，依次向下找節點；def getInfo(html): soup = BeautifulSo

進行大資料爬取資料，存入Mongodb

爬蟲剛入門，對趕集網進行一次所有商品大資料的爬取使用了多執行緒，存到資料庫裡，目前不知道要爬多久有一個要注意的地方，比如我們要進行兩次爬蟲，一次是把每個專案的連結爬下來，一次是把每個專案裡的詳情資訊爬下來，最好是先把每個專案的連結存下來，並用資料庫儲存，然後再從資料庫取

java中從高德地圖爬取資料

最近一個人負責公司的一個app專案開發，需要從高德地圖爬取杭州市全部的超市資訊，放入mongodb的資料庫中。做地理位置查詢。（mongodb這部分有時間補上）首先去高德地圖建立一個開發者賬號，獲取一個開發web服務的高德key.這個是必須要有的，可以用我

scrapy獲取cookie,並用cookie模擬登入人人網，爬取資料

1. 先用帳號密碼登入人人網，檢視元素，重新整理頁面，network中找第一個網頁請求，並檢視請求cookie 2.複製貼上修改格式爬蟲程式碼如下： -*- coding: utf-8 -*- import scrapy class RenrenSpider(

android開發在JNI函式中引用Java類，將cxx複雜資料轉換成jobjectArray，實現從JNI到Java的資料傳輸

引言： JNI是Java可以呼叫高效的c++程式碼，但是在JNI函式中傳遞複雜資料型別十分的繁瑣，一般情況下需要jobject作為中轉，一維陣列int[],float[]以及二維陣列String[]可以實現方便的引數傳入/傳出。其他複雜的二、三維陣列理論上可以

python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地

大家好我叫hardy 需求：爬取某個頁面，並把該頁面的圖片下載到本地思考：　　img標籤一個有多少種類型的src值？三種：1、以http開頭的網路連結。2、以“/”開頭絕對路徑。3、以“./”開頭相對路徑。當然還有其他型

將日誌記錄在是mysql中，實現loganalyzer

mysql 日誌報表三臺主機 192.168.191.106（代號106）產生日誌 192.168.191.107（代號107）實現存放日誌的數據庫 192.168.191.173（代號173）實現日誌報表 1、實現rsyslog將日誌記錄於M

將爬取的資料傳入到pipeline中，需要對settings.py進行修改

相關推薦