python 第二周（第十一天）我的python成長記一個月搞定python數據挖掘！(19) -scrapy + mongo

阿新 • • 發佈：2017-08-04

msg 步驟 [0 ssi xtra tin perl overflow tab

mongoDB 3.2之後默認是使用wireTiger引擎

在啟動時更改存儲引擎：

　　mongod --storageEngine mmapv1 --dbpath d:\data\db

這樣就可以解決mongvue不能查看文檔的問題啦！

項目流程（步驟）：

前去準備（安裝scrapy pymongo mongodb ）

　1. 生成項目目錄： scrapy startproject stack

　2.itmes　　　

from scrapy import Item,Field


class StackItem(Item):
    title = Field()
    url = Field()

　3. 創建爬蟲

from scrapy import Spider
from scrapy.selector import Selector
from stack.items import StackItem

class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://stackoverflow.com/questions?pagesize=50&sort=newest",
    ]

    def parse(self, response):
        questions = response.xpath(‘//div[@class="summary"]/h3‘)

        for question in questions:
            item = StackItem()
            item[‘title‘] = question.xpath(
                ‘a[@class="question-hyperlink"]/text()‘).extract()[0]
            item[‘url‘] = question.xpath(
                ‘a[@class="question-hyperlink"][email protected]

/* */).extract()[0]
yield item

　4.學會使用xpath selectors 進行數據的提取

　5.存儲數據到mongo中

　　5.1 setting.py

ITEM_PIPELINES = {
   ‘stack.pipelines.MongoDBPipeline‘: 300,
}

MONGODB_SERVER = "localhost"
MONGODB_PORT = 27017
MONGODB_DB = "stackoverflow"
MONGODB_COLLECTION = "questions"

　　5.2 pipelines.py

import pymongo

from scrapy.conf import settings
from scrapy.exceptions import  DropItem
from scrapy import log

class MongoDBPipeline(object):
    def __init__(self):
        connection = pymongo.MongoClient(
            settings[‘MONGODB_SERVER‘],
            settings[‘MONGODB_PORT‘]
        )
        db = connection[settings[‘MONGODB_DB‘]]
        self.collection = db[settings[‘MONGODB_COLLECTION‘]]

    def process_item(self, item, spider):
        valid = True
        for data in item:
            if not data:
                valid = False
                raise DropItem("Missing {0}!".format(data))
        if valid:
            self.collection.insert(dict(item))
            log.msg("Question added to MongoDB database!",
                    level=log.DEBUG, spider=spider)

        return item

　6. 啟動爬蟲 main.py

from scrapy import cmdline

cmdline.execute(‘scrapy crawl stack‘.split())

效果圖

技術分享

python 第二周（第十一天）我的python成長記一個月搞定python數據挖掘！(19) -scrapy + mongo

msg 步驟 [0 ssi xtra tin perl overflow tab mongoDB 3.2之後默認是使用wireTiger引擎在啟動時更改存儲引擎：　　mongod --storageEngine mmapv1 --dbpath d:\data\db 這

python 第二周（第八天）我的python成長記一個月搞定python數據挖掘！(14)

num print 數據 span python rate string spa rom from lxml import etreedoubanhtml = ‘‘‘‘‘‘doc = etree.fromstring(doubanhtml)for eachbook in d

python 第二周（第八天）我的python成長記一個月搞定python數據挖掘！(15)

center project ron 高層 web 快速 art start mes scrapy爬蟲企業級爬蟲：python開發的一個快速，高層次的web抓取框架，用於抓取web站點並從頁面提取結構化的數據。 scrapy用途廣泛，可用於數據挖掘，數據監測和自動化測試

python 第一周（第三天）我的python成長記一個月搞定python數據挖掘！(04)

數字 date .get raw dict 元素 upd 轉換成 efault 字符串 str 和 unicode str 字節流 unicode 字符流 (中文，英文，等等) => 如何轉換成計算機中的01代碼呢？　　出現了編碼 ascii, iso8859

python 第一周（第一天）我的python成長記一個月搞定python數據挖掘！

__name__ -c pass class port .py contact 成長 class a python代碼的組織方式： .py 文件模塊文件樣式： #!/usr/bin/python#-*-coding:utf8-*- """@author: yugengde

201711671125 《Java程式設計》第10周學習總結（第十一章）

教材學習內容總結第十一章 JDBC 程式經常使用JDBC進行如下的操作： (1)與一個數據庫建立連線。 (2)向資料庫傳送SQL語句。 (3)處理資料庫返回的結果。 2.連線MySQL資料庫（1）下載JDBC-MySQL資料庫驅動（2）載入JDB

構建基本腳本（第十一章）

基本腳本1.1 多命令； shell腳本可以通過；將命令串起來一起運行，甚至可以將前一個命令執行的結果作為參數傳給後一個命令執行。[[email protected]/* */ ~]# date;who Mon Jul 17 20:46:33 CST 2017 (unknown) :0

為什麼我要放棄javaScript資料結構與演算法（第十一章）—— 演算法模式

本章將會學習遞迴、動態規劃和貪心演算法。第十一章演算法模式遞迴遞迴是一種解決問題的方法，它解決問題的各個小部分，直到解決最初的大問題。遞迴通常涉及函式呼叫自身。遞迴函式是像下面能夠直接呼叫自身的方式或函式 function recursiveFunction(someParam){

springboot2.x簡單詳細教程--整合Logback日誌框架（第十一章）

一、新日誌框架LogBack介紹簡介：日誌介紹和新日誌框架Logback講解 1.常用處理java的日誌元件 slf4j,log4j,logback,common-logging 等 &

201711671125 Java多執行緒例項（第十一週）

建立3個售票視窗同時開始銷售10張票。原始碼： public class One { public static void main(String[] args) { Ti

Linux學習（第十一週）

第十一週學習內容：LAMP和檔案儲存共享服務第十一週作業： 1、搭建php-fpm工作方式的LAMP環境，實現wordpress正常訪問。 LAMP環境：l是作業系統linux；a是web服務程式httpd（apache）或nginx；

聽課筆記（第十一講）：線性分類模型 (臺大機器學習）

在上一講中，我們瞭解到線性迴歸和邏輯斯蒂迴歸一定程度上都可以用於線性二值分類，因為它們對應的錯誤衡量(square error, cross-entropy) 都是“0/1 error” 的上界。1，三個模型的比較1.1 分析Error Function本質上講，線性分類

【無私分享：ASP.NET CORE 專案實戰（第十一章）】Asp.net Core 快取 MemoryCache 和 Redis

1 /// <summary> 2 /// 修改快取 3 /// </summary> 4 /// <param name="key">快取Key</param> 5 ///

黑馬程式設計師 —— Java高階視訊_IO輸入與輸出（第十八天）1

------- android培訓、java培訓、期待與您交流！ ---------- 一其它物件 - System 現在來看一下一些其他類是如何使用的。比起了解這些類的方法怎麼使用，在這幾節學習過程中，更重要的是要掌握如何通過查閱API文件實現功能。 1

JavaWeb 入門級專案實戰 -- 文章釋出系統（第十一節）

本節主要解決在詳情頁根據文章ID查詢文章內容的問題。 1.根據ID查詢文章資料在上一節中，我們已經成功在detail.jsp頁面獲取到了來自index.jsp的文章ID。那麼，最容易想到的辦法，就是直接在detail.jsp頁面通過Java程式碼，直接查詢出對應的文章資

Linux第二周（第2~3節）

extract 算法 text -a port 臨時 gen resolv win 1、描述linux目錄結構以及目錄結構命名規定 /boot目錄：存放linux系統引導數據 /dev：存放linux設備的目錄，硬盤、光盤等 /etc：存放

演算法漫遊指北（第十一篇）:歸併排序演算法描述、動圖演示、程式碼實現、過程分析、複雜度

一、歸併排序歸併排序是建立在歸併操作上的一種有效的排序演算法。該演算法是採用分治法（Divide and Conquer）的一個非常典型的應用。將已有序的子序列合併，得到完全有序的序列；即先使每個子序列有序，再使子序列段間有序。若將兩個有序表合併成一個有序表，稱為2-路歸併。所謂“分&r

學習python的第十一天（編碼，解碼，文件的基本操作）

print 路徑翻譯自我編碼解碼 pri 管理快速 code 5.10自我總結 1.編碼解碼 1.字符串編碼字符 --------》翻譯過程 -------》數字 2.字符串解碼字符 --------》翻譯過程 -------》數字 3.編碼解碼用到的翻譯工具

走入計算機的第十一天（shell的一些簡單用法）

調用 gen 眼睛加載賦值 mem end 表示簡單用法一 BASH的屬性 BASH中會存儲一些自身屬性的參數,啟用或關閉某一項功能例如控制* .字符是否為通配查看參數 set -o 關閉noglob參數 set -o noglob ls * ls: *:

讀書筆記--《Python基礎教程第二版》--第十一章文件和素材

ja第十一章文件和素材11.1 打開文件 open函數用來打開文件，語法如下： open(name[,mode[,buffering]]) f = open(r‘/home/python/somefile.txt‘)11.1.1 文件模式r 讀模式w 寫模式a 追加模式b 二進制模式（可添加到其他的模式

python 第二周（第十一天） 我的python成長記 一個月搞定python數據挖掘！(19) -scrapy + mongo

相關推薦

python 第二周（第十一天）我的python成長記一個月搞定python數據挖掘！(19) -scrapy + mongo